基于视觉Transformer的多级特征聚合图像语义分割方法-USB迷|专注于互联网分享

2024年5月15日发(作者：六娴淑)

第１３卷　第１０期

Ｖｏｌ．１３Ｎｏ．１０　

智　能　计　算　机　与　应　用

ＩｎｔｅｌｌｉｇｅｎｔＣｏｍｐｕｔｅｒａｎｄＡｐｐｌｉｃａｔｉｏｎｓ

中图分类号：ＴＰ３９１文献标志码：Ａ

　２０２３年１０月

　Ｏｃｔ．２０２３

文章编号：２０９５

－

２１６３（２０２３）１０

－

０１５９

－

０７

基于视觉Ｔｒａｎｓｆｏｒｍｅｒ的多级特征聚合图像语义分割方法

孔玲君

１

，郑斌军

２

（１上海出版印刷高等专科学校，上海２０００９３；２上海理工大学出版印刷与艺术设计学院，上海２０００９３）

摘　要：针对传统卷积神经网络在图像语义分割领域进行特征提取时未能充分利用上下文信息的问题，提出一种基于视觉

Ｔｒａｎｓｆｏｒｍｅｒ的多级特征聚合图像语义分割方法。首先，将输入图像分割成一系列切片进行线性投影，并加入可学习的位置嵌

入，获得编码输入序列；通过一个基于视觉Ｔｒａｎｓｆｏｒｍｅｒ的编码器，将图像编码为一系列补丁，从而在整个网络中建模全局上下

文。Ｔｒａｎｓｆｏｒｍｅｒ编码器可与一个简单的线性解码器组合来获得优秀的效果，通过多级特征聚合解码器能进一步提升性能。

大量实验表明，所提出的方法能够有效建模全局上下文信息，以进行图像特征提取。实验在３个公开数据集（ＡＤＥ２０Ｋ

（４９．９７％ｍＩｏＵ）、ＰａｓｃａｌＣｏｎｔｅｘｔ（５５．４３％ｍＩｏＵ）、Ｃｉｔｙｓｃａｐｅｓ（８２．０３％ｍＩｏＵ））的语义分割任务中达到了良好的分割精度。设

计的消融实验结果也充分证明了所提方法的有效性，能够更好地运用在高精度的图像语义分割领域。

关键词：语义分割；自注意力机制；特征聚合；视觉Ｔｒａｎｓｆｏｒｍｅｒ

Ｍｕｌｔｉ

－

ｌｅｖｅｌｆｅａｔｕｒｅａｇｇｒｅｇａｔｉｏｎｗｉｔｈｖｉｓｉｏｎｔｒａｎｓｆｏｒｍｅｒｆｏｒｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ

（１ＳｈａｎｇｈａｉＰｕｂｌｉｓｈｉｎｇａｎｄＰｒｉｎｔｉｎｇＣｏｌｌｅｇｅ，Ｓｈａｎｇｈａｉ２０００９３，Ｃｈｉｎａ；

２ＳｃｈｏｏｌｏｆＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＡｒｔＤｅｓｉｇｎ，ＵｎｉｖｅｒｓｉｔｙｏｆＳｈａｎｇｈａｉｆｏｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｓｈａｎｇｈａｉ２０００９３，Ｃｈｉｎａ）

【Ａｂｓｔｒａｃｔ】Ａｉｍｉｎｇａｔｔｈｅｐｒｏｂｌｅｍｔｈａｔｔｈｅｔｒａｄｉｔｉｏｎａｌｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｃａｎｎｏｔｍａｋｅｆｕｌｌｕｓｅｏｆｔｈｅｃｏｎｔｅｘｔｉｎｆｏｒｍａｔｉｏｎ

ｗｈｅｎｅｘｔｒａｃｔｉｎｇｆｅａｔｕｒｅｓｉｎｔｈｅｆｉｅｌｄｏｆｉｍａｇｅｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ，ａｍｕｌｔｉ

－

ｌｅｖｅｌｆｅａｔｕｒｅａｇｇｒｅｇａｔｉｏｎｉｍａｇｅｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ

ｍｅｔｈｏｄｂａｓｅｄｏｎＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒｉｓｐｒｏｐｏｓｅｄ．Ｆｉｒｓｔ，ｔｈｅｉｎｐｕｔｉｍａｇｅｉｓｄｉｖｉｄｅｄｉｎｔｏａｓｅｒｉｅｓｏｆｓｌｉｃｅｓ，ｌｉｎｅａｒｐｒｏｊｅｃｔｉｏｎｉｓ

ｐｅｒｆｏｒｍｅｄ，ａｎｄａｌｅａｒｎａｂｌｅｐｏｓｉｔｉｏｎｅｍｂｅｄｄｉｎｇｉｓａｄｄｅｄｔｏｏｂｔａｉｎｔｈｅｃｏｄｅｄｉｎｐｕｔｓｅｑｕｅｎｃｅ．Ｔｈｒｏｕｇｈａｔｒａｎｓｆｏｒｍｅｒ

－

ｂａｓｅｄｅｎｃｏｄｅｒ，ｔｈｅ

ｉｍａｇｅｉｓｅｎｃｏｄｅｄｉｎｔｏａｓｅｒｉｅｓｏｆｐａｔｃｈｅｓｓｏａｓｔｏｍｏｄｅｌｔｈｅｇｌｏｂａｌｃｏｎｔｅｘｔｉｎｔｈｅｅｎｔｉｒｅｎｅｔｗｏｒｋ．Ｔｈｉｓｅｎｃｏｄｅｒｃａｎｂｅｃｏｍｂｉｎｅｄｗｉｔｈａ

ｓｉｍｐｌｅｌｉｎｅａｒｄｅｃｏｄｅｒｔｏｏｂｔａｉｎｅｘｃｅｌｌｅｎｔｒｅｓｕｌｔｓ，ａｎｄｔｈｅｐｅｒｆｏｒｍａｎｃｅｃａｎｂｅｆｕｒｔｈｅｒｉｍｐｒｏｖｅｄｔｈｒｏｕｇｈｍｕｌｔｉ

－

ｌｅｖｅｌｆｅａｔｕｒｅａｇｇｒｅｇａｔｉｏｎ

ｄｅｃｏｄｅｒ．Ａｌａｒｇｅｎｕｍｂｅｒｏｆｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｃａｎｅｆｆｅｃｔｉｖｅｌｙｍｏｄｅｌｔｈｅｇｌｏｂａｌｃｏｎｔｅｘｔｉｎｆｏｒｍａｔｉｏｎｆｏｒｉｍａｇｅ

ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ，ａｎｄａｃｈｉｅｖｅｓｇｏｏｄｓｅｇｍｅｎｔａｔｉｏｎａｃｃｕｒａｃｙｉｎｔｈｅｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎｔａｓｋｓｏｆｔｈｒｅｅｐｕｂｌｉｃｄａｔａｓｅｔｓＡＤＥ２０Ｋ

（４９．９７％ｍＩｏＵ），ＰａｓｃａｌＣｏｎｔｅｘｔ（５５．４３％ｍＩｏＵ），ａｎｄＣｉｔｙｓｃａｐｅｓ（８２．０３％ｍＩｏＵ）．Ｔｈｅａｂｌａｔｉｏｎｅｘｐｅｒｉｍｅｎｔｓｆｕｌｌｙｐｒｏｖｅｔｈｅ

ｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄ，ｗｈｉｃｈｃａｎｂｅｂｅｔｔｅｒｕｓｅｄｉｎｔｈｅｆｉｅｌｄｏｆｈｉｇｈ

－

ｐｒｅｃｉｓｉｏｎｉｍａｇｅｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ．

【Ｋｅｙｗｏｒｄｓ】ｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ；ｓｅｌｆ

－

ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ；ｆｅａｔｕｒｅａｇｇｒｅｇａｔｉｏｎ；ｖｉｓｉｏｎｔｒａｎｓｆｏｒｍｅｒ

ＫＯＮＧＬｉｎｇｊｕｎ

１

，ＺＨＥＮＧＢｉｎｊｕｎ

２

０　引　言

语义分割是计算机视觉领域的一个重要的研究

任务，具有广泛的应用，如自动驾驶、视频监控、增强

现实、机器人技术等等。语义分割通过给图像的每

个像素分配语义标签，进而为目标任务提供高级图

像表示，如在自动驾驶场景中识别行人和车辆以进

行规避。Ｌｏｎｇ等人

［１］

开创性地使用完全卷积网络

（ＦｕｌｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ，ＦＣＮ）进行图像语义分

基金项目：上海市一流院校建设项目（ｙｌｙｘ２０２２

－

３）。

割任务，并取得良好的效果，这激发了许多后续的工

作，并成为语义分割的主要范式。

图像分类与语义分割有着密切的联系，许多先

进的语义分割框架是在ＩｍａｇｅＮｅｔ上流行的图像分

类体系结构的变种。因此，主干框架设计一直是语

义分割的重要活跃领域。从早期的ＶＧＧ

［２］

到具有

更深层、更强大的主干方法，主干网络的进步极大地

推动了语义分割性能的提升。通过可学习的堆叠卷

积，可以捕获语义丰富的信息。然而，卷积滤波器的

作者简介：孔玲君（１９７２

－

），女，博士，教授，硕士生导师，主要研究方向：图文信息处理与色彩再现、数字印刷及质量评价；郑斌军（１９９７

－

），男，

硕士研究生，主要研究方向：数字图像处理、计算机视觉和深度学习。

通讯作者：孔玲君　　Ｅｍａｉｌ：９０８６４１３７６＠ｑｑ．ｃｏｍ

收稿日期：２０２２

－

１１

－

０３

哈尔滨工业大学主办