2024年5月15日发(作者:六娴淑)
第13卷 第10期
Vol.13No.10
智 能 计 算 机 与 应 用
IntelligentComputerandApplications
中图分类号:TP391文献标志码:A
2023年10月
Oct.2023
文章编号:2095
-
2163(2023)10
-
0159
-
07
基于视觉Transformer的多级特征聚合图像语义分割方法
孔玲君
1
,郑斌军
2
(1上海出版印刷高等专科学校,上海200093;2上海理工大学出版印刷与艺术设计学院,上海200093)
摘 要:针对传统卷积神经网络在图像语义分割领域进行特征提取时未能充分利用上下文信息的问题,提出一种基于视觉
Transformer的多级特征聚合图像语义分割方法。首先,将输入图像分割成一系列切片进行线性投影,并加入可学习的位置嵌
入,获得编码输入序列;通过一个基于视觉Transformer的编码器,将图像编码为一系列补丁,从而在整个网络中建模全局上下
文。Transformer编码器可与一个简单的线性解码器组合来获得优秀的效果,通过多级特征聚合解码器能进一步提升性能。
大量实验表明,所提出的方法能够有效建模全局上下文信息,以进行图像特征提取。实验在3个公开数据集(ADE20K
(49.97%mIoU)、PascalContext(55.43%mIoU)、Cityscapes(82.03%mIoU))的语义分割任务中达到了良好的分割精度。设
计的消融实验结果也充分证明了所提方法的有效性,能够更好地运用在高精度的图像语义分割领域。
关键词:语义分割;自注意力机制;特征聚合;视觉Transformer
Multi
-
levelfeatureaggregationwithvisiontransformerforsemanticsegmentation
(1ShanghaiPublishingandPrintingCollege,Shanghai200093,China;
2SchoolofCommunicationandArtDesign,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China)
【Abstract】Aimingattheproblemthatthetraditionalconvolutionalneuralnetworkcannotmakefulluseofthecontextinformation
whenextractingfeaturesinthefieldofimagesemanticsegmentation,amulti
-
levelfeatureaggregationimagesemanticsegmentation
methodbasedonVisionTransformerisproposed.First,theinputimageisdividedintoaseriesofslices,linearprojectionis
performed,andalearnablepositionembeddingisaddedtoobtainthecodedinputsequence.Throughatransformer
-
basedencoder,the
imageisencodedintoaseriesofpatchessoastomodeltheglobalcontextintheentirenetwork.Thisencodercanbecombinedwitha
simplelineardecodertoobtainexcellentresults,andtheperformancecanbefurtherimprovedthroughmulti
-
levelfeatureaggregation
decoder.Alargenumberofexperimentsshowthattheproposedmethodcaneffectivelymodeltheglobalcontextinformationforimage
featureextraction,andachievesgoodsegmentationaccuracyinthesemanticsegmentationtasksofthreepublicdatasetsADE20K
(49.97%mIoU),PascalContext(55.43%mIoU),andCityscapes(82.03%mIoU).Theablationexperimentsfullyprovethe
effectivenessoftheproposedmethod,whichcanbebetterusedinthefieldofhigh
-
precisionimagesemanticsegmentation.
【Keywords】semanticsegmentation;self
-
attentionmechanism;featureaggregation;visiontransformer
KONGLingjun
1
,ZHENGBinjun
2
0 引 言
语义分割是计算机视觉领域的一个重要的研究
任务,具有广泛的应用,如自动驾驶、视频监控、增强
现实、机器人技术等等。语义分割通过给图像的每
个像素分配语义标签,进而为目标任务提供高级图
像表示,如在自动驾驶场景中识别行人和车辆以进
行规避。Long等人
[1]
开创性地使用完全卷积网络
(FullConvolutionalNetwork,FCN)进行图像语义分
基金项目:上海市一流院校建设项目(ylyx2022
-
3)。
割任务,并取得良好的效果,这激发了许多后续的工
作,并成为语义分割的主要范式。
图像分类与语义分割有着密切的联系,许多先
进的语义分割框架是在ImageNet上流行的图像分
类体系结构的变种。因此,主干框架设计一直是语
义分割的重要活跃领域。从早期的VGG
[2]
到具有
更深层、更强大的主干方法,主干网络的进步极大地
推动了语义分割性能的提升。通过可学习的堆叠卷
积,可以捕获语义丰富的信息。然而,卷积滤波器的
作者简介:孔玲君(1972
-
),女,博士,教授,硕士生导师,主要研究方向:图文信息处理与色彩再现、数字印刷及质量评价;郑斌军(1997
-
),男,
硕士研究生,主要研究方向:数字图像处理、计算机视觉和深度学习。
通讯作者:孔玲君 Email:908641376@qq.com
收稿日期:2022
-
11
-
03
哈尔滨工业大学主办
2024年5月15日发(作者:六娴淑)
第13卷 第10期
Vol.13No.10
智 能 计 算 机 与 应 用
IntelligentComputerandApplications
中图分类号:TP391文献标志码:A
2023年10月
Oct.2023
文章编号:2095
-
2163(2023)10
-
0159
-
07
基于视觉Transformer的多级特征聚合图像语义分割方法
孔玲君
1
,郑斌军
2
(1上海出版印刷高等专科学校,上海200093;2上海理工大学出版印刷与艺术设计学院,上海200093)
摘 要:针对传统卷积神经网络在图像语义分割领域进行特征提取时未能充分利用上下文信息的问题,提出一种基于视觉
Transformer的多级特征聚合图像语义分割方法。首先,将输入图像分割成一系列切片进行线性投影,并加入可学习的位置嵌
入,获得编码输入序列;通过一个基于视觉Transformer的编码器,将图像编码为一系列补丁,从而在整个网络中建模全局上下
文。Transformer编码器可与一个简单的线性解码器组合来获得优秀的效果,通过多级特征聚合解码器能进一步提升性能。
大量实验表明,所提出的方法能够有效建模全局上下文信息,以进行图像特征提取。实验在3个公开数据集(ADE20K
(49.97%mIoU)、PascalContext(55.43%mIoU)、Cityscapes(82.03%mIoU))的语义分割任务中达到了良好的分割精度。设
计的消融实验结果也充分证明了所提方法的有效性,能够更好地运用在高精度的图像语义分割领域。
关键词:语义分割;自注意力机制;特征聚合;视觉Transformer
Multi
-
levelfeatureaggregationwithvisiontransformerforsemanticsegmentation
(1ShanghaiPublishingandPrintingCollege,Shanghai200093,China;
2SchoolofCommunicationandArtDesign,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China)
【Abstract】Aimingattheproblemthatthetraditionalconvolutionalneuralnetworkcannotmakefulluseofthecontextinformation
whenextractingfeaturesinthefieldofimagesemanticsegmentation,amulti
-
levelfeatureaggregationimagesemanticsegmentation
methodbasedonVisionTransformerisproposed.First,theinputimageisdividedintoaseriesofslices,linearprojectionis
performed,andalearnablepositionembeddingisaddedtoobtainthecodedinputsequence.Throughatransformer
-
basedencoder,the
imageisencodedintoaseriesofpatchessoastomodeltheglobalcontextintheentirenetwork.Thisencodercanbecombinedwitha
simplelineardecodertoobtainexcellentresults,andtheperformancecanbefurtherimprovedthroughmulti
-
levelfeatureaggregation
decoder.Alargenumberofexperimentsshowthattheproposedmethodcaneffectivelymodeltheglobalcontextinformationforimage
featureextraction,andachievesgoodsegmentationaccuracyinthesemanticsegmentationtasksofthreepublicdatasetsADE20K
(49.97%mIoU),PascalContext(55.43%mIoU),andCityscapes(82.03%mIoU).Theablationexperimentsfullyprovethe
effectivenessoftheproposedmethod,whichcanbebetterusedinthefieldofhigh
-
precisionimagesemanticsegmentation.
【Keywords】semanticsegmentation;self
-
attentionmechanism;featureaggregation;visiontransformer
KONGLingjun
1
,ZHENGBinjun
2
0 引 言
语义分割是计算机视觉领域的一个重要的研究
任务,具有广泛的应用,如自动驾驶、视频监控、增强
现实、机器人技术等等。语义分割通过给图像的每
个像素分配语义标签,进而为目标任务提供高级图
像表示,如在自动驾驶场景中识别行人和车辆以进
行规避。Long等人
[1]
开创性地使用完全卷积网络
(FullConvolutionalNetwork,FCN)进行图像语义分
基金项目:上海市一流院校建设项目(ylyx2022
-
3)。
割任务,并取得良好的效果,这激发了许多后续的工
作,并成为语义分割的主要范式。
图像分类与语义分割有着密切的联系,许多先
进的语义分割框架是在ImageNet上流行的图像分
类体系结构的变种。因此,主干框架设计一直是语
义分割的重要活跃领域。从早期的VGG
[2]
到具有
更深层、更强大的主干方法,主干网络的进步极大地
推动了语义分割性能的提升。通过可学习的堆叠卷
积,可以捕获语义丰富的信息。然而,卷积滤波器的
作者简介:孔玲君(1972
-
),女,博士,教授,硕士生导师,主要研究方向:图文信息处理与色彩再现、数字印刷及质量评价;郑斌军(1997
-
),男,
硕士研究生,主要研究方向:数字图像处理、计算机视觉和深度学习。
通讯作者:孔玲君 Email:908641376@qq.com
收稿日期:2022
-
11
-
03
哈尔滨工业大学主办