2024年4月10日发(作者:商丹秋)
ComputerEngineeringandApplications计算机工程与应用
2021,57(9)9
深度神经网络图像描述综述
凯
1
,田英杰
2
,种法广
1
,王子超
1
1.上海电力大学计算机科学与技术学院
,
上海201300
许
2.国家电网公司上海电器科学研究院,上海200437
摘要:深度学习的迅速发展使得图像描述效果得到显著提升,针对基于深度神经网络的图像描述方法及其研究现
昊
1
,张
状进行详细综述。图像描述算法结合计算机视觉和自然语言处理的知识,根据图像中检测到的内容自动生成自然
语言描述,是场景理解的重要部分。图像描述任务中,一般采用由编码器和解码器组成的基本架构。改进编码器或
解码器,应用生成对抗网络、强化学习、无监督学习以及图卷积神经网络等方法能有效提高图像描述算法的性能。
对每类方法的代表模型算法的效果以及优缺点进行分析,并介绍适用的公开数据集,在此基础上进行对比实验。对
图像描述面临的挑战以及未来工作的发展方向做出展望。
关键词:深度神经网络;计算机视觉;图像描述;编码器-解码器架构;注意力机制
文献标志码:A中图分类号:TP391.41doi:10.3778/.1002-8331.2012-0539
ReviewofDeepNeuralNetwork-BasedImageCaption
XUHao
1
,ZHANGKai
1
,TIANYingjie
2
,CHONGFaguang
1
,WANGZichao
1
eofComputerScienceandTechnology,ShanghaiUniversityofElectricPower,Shanghai201300,China
aiElectricalResearchInstitute,StateGridCorporationofChina,Shanghai200437,China
Abstract:Withtherapiddevelopmentofdeeplearning,per
mainlyreviewsthemethodsofiaption
algorithmcombinestheknowledgeofcomputervisionandnaturallanguageprocessingtogeneratenaturallanguage
descriptionsbasedonthecontentdetectedintheimageautomatically,whichisanimportantpartofsceneunderstanding.
Generally,thebingencodersordecoders,
applyingmethodsofGenerativeAdversarialNetworks(GAN).ReinforcementLearning(RL),UnsupervisedLearning
(UL)andGraphConvolutionNeuralNetwork(GCN)caneffectivelyimprovetheperformanceofimagecaptionalgorithm.
Afterward,theeffect,advantager,public
basis,y,thechallengesofimagecaption
andpossibilityoffutureworkareprospected.
Keywords:deepneuralnetwork;computervision;imagecaption;encoder-decoderarchitecture;attentionmechanism
近十年是深度学习进入高速发展的黄金时期,各领
域基于深度学习算法的研究取得了丰富的成果,其工业
化的应用也惠及到人们生活中的方方面面。例如,可以
使用指纹、人脸或者虹膜进行手机解锁,在YouTube观
看外语视频时可以实现实时翻译字幕的显示。在年初
爆发新型冠状病毒的关键时期,大部分车站、高速收费
站等都可以使用红外线检测仪来安全快捷地检测人体
的体温,年初时由于疫情大家都戴起了口罩,这也带来
了一些小的生活烦恼:很多通过人脸识别解锁的手机
“认不得”自己了,但是随着深度学习在大数据中的学
习,这一问题很快得到了解决。深度学习在图像领域:
图像分类
[1-3]
、目标检测
[4-6]
、场景识别
[7-9]
等得到了广泛应
用,随后出现了多模态的图像语义技术,也就是将图像
和文本跨模态建立联系,进而使计算机能够从人类思维
的角度出发去处理图像中的信息,并能够识别各目标之
间的联系,最终以文字的形式表示出来。这项技术在人
们的生活中也得到了有效的应用,例如能够对盲人进行
导航。基于这样的需求,能够通过实时采取和分析视频
基金项目:国家自然科学基金(61872230,61802248,61802249,61702321);上海高校青年教师培养资助计划(ZZsdl18006)。
作者简介:许昊(1991—),硕士研究生,研究领域为计算机视觉、图像描述,E-mail:****************;张凯(1990—),博士,CCF
会员,研究领域为人工智能安全;田英杰,高级工程师;种法广,硕士研究生;王子超,硕士研究生。
收稿日期:2020-12-29修回日期:2021-02-26文章编号:1002-8331(2021)09-0009-14
102021,57(9)
ComputerEngineeringandApplications计算机工程与应用
图像,将采取的图像信息进行处理并输出成一段文本,
最后通过文本转语音传入盲人的耳中,使得盲人能够实
时地感知周围的环境。对于智能机器人的发展也同样
重要,图像描述的技术能够准确识别出提取图像中的关
键内容,并进一步理解图像中各物体间的关系,相当于
让它有了一双能够感知世界的“眼睛”,这对于机器人技
术的发展也具有巨大的推动作用。图像描述在图像检
索系统也有着一定的应用价值,传统的图像检索技术主
要是利用图像的标签进行对应索引的建立,但如果标签
存在错误,图像就不能被正确检索,如果将图像描述技
术应用其中,图像检索系统能正确地理解图像内在目标
的语义,这样系统也就能对庞大的无标签图像进行正确
有效地检索,这样图像检索的效率就能得到提高,检索
的范围也得到拓展。除此之外,该技术在其他领域也有
着应用前景,例如生成医学CT图像的报告,新闻标题的
生成等。近年来,图像描述的技术也趋于成熟,图像描
述的技术也发展到视频描述,例如根据短视频进行一篇
新闻报告的生成等。可以看出,图像描述技术在现实中
的有着巨大的实用价值。
图像描述作为把计算机视觉和自然语言处理相结
合的跨模态跨领域的任务。一般地,它将输入的图片通
过卷积神经网络提取图像特征并利用循环神经网络等
方法生成一段文字的描述,这段描述要求和图片的内容
高度相似。这对于人类来说是很简单的,通俗来说就是
看图说话,几岁的儿童就能很详细地描述一张图片的内
容。但对于计算机来说还是有很大的难度的,这要求
计算机利用模型来提取图片内的特征以及一些高层语
义信息,然后利用自然语言处理的方法表达图片中的
内容。
最初,传统的图像描述算法是通过模板填充
[10-11]
的
方法来生成图像描述,它主要是通过局部二值模式、尺
度不变特征转换或者方向梯度直方图等算法提取图像
的视觉特征,并根据这些特征检测对应目标、动作及属
性对应的单词词汇,最后将这些单词填入到模板中。不
难看出这样的方法虽然能够保证句型语法的正确性,也
有着很大的局限性,由于使用的模板是固定的,它也依
赖于硬解码的视觉概念影响,这样生成的语句格式相对
固定且形式单一,应用的场景也很局限,正因为这样天
然的缺陷,后续的改进也变得更加繁琐而无法应用到实
际的场景之中。还有一种是基于检索
[12-13]
的方法,它主
要是将大量的图片描述存于一个集合中,然后通过比较
有标签图片和训练生成图片描述两者间相似度来生成
一个候选描述的集合,再从中选择最符合该图片的描
述。这样的方法能保证语句的正确性,但语义的正确性
却难以保证,因而对图像描述的正确率较低。
得益于深度学习的发展,借助深度学习的方法推进
跨模态学习成为当前的主流,这也是目前使用最多的基
于生成的方法。这类方法的大致流程是先将图像信息
编码后作为输入放进模型,随后利用此模型生成该图像
对应的文本描述。如图1所示,这样的模型一般采用编
码器-解码器架构,编码器使用卷积神经网络(CNN
[1]
)提
取图像特征,解码器采用循环神经网络(RNN
[14]
)来生成
文本描述。这是在图像描述中普遍应用且效果最好的
模型,它在语句结构的完整性、语义的正确性,以及泛化
能力得到了一致的认可。
Someoneisontheirlaptop,
CNNRNN
whileadoglookson.
Asmalldogstandingnext
toapersononalaptop.
Therearetwopeopleonlap-
topsandadogsitting
betweenthem.
Adultwithlaptopwithdog
lyingnexttohim.
图1基于CNN-RNN的图像描述
1基本架构及改进
1.1编码器-解码器架构
本章对基于深度神经网络
[15]
的图像描述
[16-17]
基本架
构和改进进行介绍。首先,当前图像描述基本都是在编
码器-解码器架构上进行改进,基于编码器、解码器上的
改进主要如图2所示。
编码器-解码器基本框架
编码器
解码器
CNN
RNN/GRU/LSTM
CNN
目标检测
Transformer
GCN
知识图谱等
图2基本架构概述
在2015年,Vinyals等人
[18]
提出一个NIC的模型,这
个模型的灵感来自于谷歌2014年有关机器翻译的工
作,也就是著名的系列到序列(seq2seq)模型
[19]
,它着重
解决的是语言翻译的问题,最终也取得了很好的成绩,
这也是编码器-解码器架构的最初提出。在机器翻译
里,输入的是源语言,输出的是目标语言的翻译文字,由
于两句话的长度可能不等,该模型采用RNN网络对句
子进行了编码,转化为一个固定长度的向量,然后再将
这个向量输入到另一个RNN网络来进行解码,进而输
出翻译后的句子。这样的结构在机器翻译的模型中实
现了变长序列到变长序列的一个映射。对应到NIC模
型中就是图片到文字的一个映射。如图3所示,这篇论
文中的模型基于机器翻译模型上进行了改进,编码器使
用基于CNN的InceptionNet提取图像特征信息,解码器
许昊,等:深度神经网络图像描述综述
依旧使用RNN处理输入的图像信息来生成描述。在同
一时期,Karpathy等人
[20]
提出的结构和NIC模型几乎一
致,区别在于它使用VGGNet
[21]
作为图像特征提取器。
Asurprisedguystaringatacake
MM
M
M
MMM
M
TTTTTTTT
SSSSSSSS
LL
L
L
LLL
L
CNN
X
图3NIC模型
在NIC模型的训练阶段使用的是COCO数据集
中训练集和数据集中的图片及其对应的文本描述。在
编码阶段,模型用CNN将图片编码为向量
I
,
I
是一
个224×224×3的向量,这里的CNN使用的是Google
InceptionNet后接一层全连接层。对于图片相应的文
本描述,为每句描述添加一个start和end标记,也就是
图3中的
m
个
词,首先将句子中的每个单词编码成独热编码(one-hot)
的形式,如图3中的每一个LSTM模块的输入都是一个
m
维的向量,然后通过一个矩阵变换将这个
m
维向量
转换为一个512维的向量,即和图像的编码维度相同。
而在解码阶段,模型使用的是单层的LSTM网络,可以
用下列公式描述这个过程:
ì
ï
x
-1
=CNN(I)
í
ï
x
t
=W
e
S
t
,t∈
{
0,1,2,…,N-1
}
(1)
î
p
t+1
=LSTM
(
x
t
)
,t∈
{
0,1,2,…,N-1
}
其中,
N-1
表示句子的长度,不包括
记,LSTM可以表述成
h
t+1
=f(h
t
,x
t
)
,
h
t
表示为
t
时刻
LSTM的输出,这个公式可以理解为每一步的输出是上
一步的输出和当前时刻的输入的函数。对应到公式(1)
中,
h
-1
=0
,初始值为0,
h
0
=f(h
-1
,x
-1
)
,
x
0
=W
e
S
0
,
如此循环。LSTM每一步的输出后会接一个softmax分
类器,维度等于语料库中的词汇量,模型的损失是每一
步正确预测单词的负对数似然之和,如公式(2)所示:
L
(
I,S
)
=-
∑
N
lg(p
t
(S
t
))
(2)
t=1
使用这个损失函数来最大化每一步输出单词的概
率。在接下来的训练阶段,NIC模型选择已经在Ima-
genet上训练好的CNN模型,训练的第一阶段固定CNN
的参数不变,参与训练的有LSTM和wordembedding的
参数。在第二阶段再把CNN、LSTM和wordembedding
这三部分的参数一同进行训练。在预测阶段,有两种生
成描述的方式:第一种是在LSTM生成单词的每一步
选择模型输出概率最大的一个单词,直到预测输出到
定一个值
N
,论文中选用的值是3,那么在第一步选择
2021,57(9)
11
输出概率最大的三个单词,第二步依旧选择概率最大的
三个单词并与上一步生成三个单词的组合,即九个短语
的组合,然后再选取其中概率最大的三个短语,以此类
推。最终模型训练出来的模型具有很好的泛化能力。
Showandtell
[18]
和NeuralTalk
[20]
介绍了图像描述的
编码器-解码器架构,可以说是图像描述在深度神经网
络的启蒙之作,对后续图像描述的发展有着深远的影
响,使编码器-解码器架构成为图像描述的主流,对其他
相关预测模型也有着一定的借鉴意义。
1.2基于编码器改进
Fang等人
[22]
对编码器进行了改进,该方法可以分为
三步:第一步检测单词,采用使用多实例学习来训练视
觉检测器来识别生成描述中常见的单词,包括名词、动
词和形容词等不同部分。这样的方法可以避免有些描
述性词汇如beautiful不能在图片中被框出。第二步生
成句子,采用统计模型MELM来预测下一个单词的概
率。第三步重新排序句子,选择最符合的语句。通过提
取关键词作为输入来生成描述的方法为后续结合图像
和语义的编码方法提供了借鉴。
Li等人
[23]
在特征提取方法上使用目标检测算法
FastR-CNN提取目标检测框作为图像特征,并使用该
特征额外训练属性分类器来获取对象的属性,比如物体
的颜色、材质等。随后将图像特征和属性特征输入到视
觉语义LSTM中进行解码。在编码阶段使用目标检测
算法能够提取带有类似注意力效果的图像特征,为解码
器生成高质量文本提供了可能。Anderson等人
[24]
的工
作使用类似的编码器并改进了解码器,得到了当时的最
优结果。
1.3基于解码器改进
编码阶段主要是基于图像领域知识的应用,解码阶
段则是自然语言处理领域知识的创新改进和应用。
Wang等人
[25]
提出了一种新型的解码结构。人类在
看图描述的过程中,一般是先定位图片的位置和他们之
间的关系,然后再详细说明物体的属性。以此为基础,
他们设计了一种coarse-to-fine的方法。首先由Skel-
LSTM使用CNN提取的图像特征来生成骨架语句,然后
使用Attr-LSTM为骨架语句中的词语生成对应的属性
词,最后将这两部分结合生成完整的最终描述语句。
Mathews等人
[26]
为了生成高精度且具有语言风格的
图像描述,提出了一个分离语义和风格的结构,通过两
组GRU单元来实现的。一组GRU提取图像特征中的
语义对(词语、属性),另一组GRU是基于一本小说训练
得到。基于上述输入的语义对来生成最终富有语言风
格的描述。
此外,Aneja等人
[27]
提出了一种不同于用LSTM或
者RNN进行解码的方法,该工作启发式地利用卷积来
进行图像描述,达到不比传统LSTM差的效果。它的输
122021,57(9)
ComputerEngineeringandApplications计算机工程与应用
入输出和RNN一样,都进行了wordembedding,但将
RNN的部分换成了MaskedCNN,使用这样的方法能够
避免RNN的时序限制,如此可以在相同的参数量下有
更快的训练速度。
受模板生成方法的启发,Lu等人
[28]
提出了一种“插
槽”的图像描述方法,其生成句子中的插槽与图像区域
相关联,直接依据图像特征去预测单词。该结构在编码
阶段使用目标检测算法FastR-CNN提取图像的区域特
征。解码阶段将句子中的词语分为视觉词与文本词,如
果当前时刻所产生的词是文本词,那么这个单词通过语
言模型从文本词汇库中生成;如果是视觉词,由目标检
测算法直接由图像标定区域特征产生的视觉词进行填
充,最终形成描述。使用神经网络模型来提取句子模
板,有效地解决了传统模板填充语句呆板的问题。
Yu等人
[29]
提出使用Transformer作为解码器,Trans-
former是一种仅使用Attention而不使用RNN或CNN的
模型。该工作使用FasterR-CNN模型从图像中提取视
觉特征,经过Transformer进行再编码后输入另一个
Transformer进行解码,编码部分也可不经过Transformer
的编码直接输入到解码器中。由于Transformer能够获
得图像和文本各自注意力状态以及图像文本间的联合
注意力,因此能够生成更高质量的描述文本。
人类在描述一张图片时,不仅从图片本身获得相关
信息,还有着其他相关背景知识地支撑。知识图谱的发
展和应用也为这一方向提供了可能。Lu等人
[30]
在图像
描述中引入了知识图谱相关的知识。该工作先使用
CNN和LSTM的编码器-解码器架构来生成图像描述的
文本模板,然后使用基于KnowledgeGraph的集体推理
算法,根据实体类型和频率在模板中为每个槽填充通过
知识图谱检索的特定命名实体。最终的描述结果在结
构语义上能够得到不错的提升。
1.4小结
上述简要介绍了图像描述在编码器-解码器架构上
的一些代表性工作。(1)在编码阶段主要表现在引入了
目标检测和关键词提取。对于图像特征的提取影响着
后续文本生成的工作,在编码阶段要求更好地提取图片
内的信息以及图片内各目标之间的联系、目标检测以及
注意力机制等方法的使用都是出于这样的目的。(2)为
了编码器输出的特征能够更好的应用,在解码阶段创造
性地引入卷积神经网络(CNN)解码、双层解码器和知识
图谱等外领域的知识。不难看出,在未来相当一段时间
内,图像描述的研究工作还会在编码器-解码器架构上
进行创新和发展。
2方法实现及改进
在编码器-解码器架构上对于图像描述算法的后续
改进主要有这样四种方法:注意力机制、对抗生成网
络、强化学习、图卷积神经网络。图4简要概括了各类
方法。
基于深度神经网络的图像描述方法
注意力机制对抗生成网络强化学习图卷积神经网络
Hard-Attention
ConditionalGAN
Actor-Ctritic
HIP
Soft-Attention
SequenceGAN
SCST
ASG
Bottom-up
无监督学习
图4基于深度神经网络的图像描述方法
2.1注意力机制
2.1.1概念
从最基本的意义上讲,注意力定义为从所有可用信
息中选择一个子集进行进一步处理的过程。视觉注意
对于建立图像内部表示的时空连贯性至关重要。注意
力机制在图像描述领域的引入得到了惊人的效果。
随着生成描述语句的多样复杂化,对应的句子向量
也变长,为了应对这样的长序列,注意力机制在图像描
述中应用逐渐广泛。目前图像描述主流的注意力机制
有这样几种:自注意力(Self-Attention)
[31]
、硬注意力
HardAttention)
[32]
、软注意力机制(SoftAttention)
[32]
。
自注意力机制是一种与单个序列自身不同位置相
关联的注意力机制,其目的是计算同一序列的表示形
式。例如语句“Adogisrunningafteracat.”句中单
词的生成都依赖于与其余单词的内在联系。每个单词
v
i
与序列中其他单词
v
j
的内在联系
e
ij
可以用公式(3)
表示:
ì
í
e
ij
=a(v
i
,v
j
)
î
α
ij
=softmax(e
(3)
ij
)
在经过softmax层归一化后可以得到对应每个单词
的注意力权重,以此来进行选择后续的单词生成。
在图像描述模型应用中,自注意力机制一般结合
Transformer模块使用,Yu等人
[29]
应用的Transformer模
块中有这样的自注意力机制,这个模块能够获得图像信
息和文本信息各自注意力状态以及图像信息和文本信
息之间的联合注意力状态,因此使得模型性能得到不错
的提升。
硬注意力机制将集合向量中权重最大的一个向量
赋值为1,其他向量权重值为0,这样就达到了只关注权
值为1向量对应图像区域的目的。其上下文向量
z
t
可
以用公式(4)表示:
z
t
=
∑
s
t,i
a
(4)
i
i
其中,
a
i
表示图像区域
i
的向量,
s
t,i
表示当图像区域
a
i
(
许昊,等:深度神经网络图像描述综述
被选中时取值为1,否则为0。
在图像描述模型应用中,应用硬注意力机制能减
少训练的时间成本,缺点是模型不可微,需要采用更复
杂的技术进行处理,例如使用蒙特卡洛方法或者强化
学习等。
软注意力机制给以集合向量中每一个向量介于0
与1之间的注意力权重,权重之和为1。其上下文向量
z
t
可以用公式(5)表示:
z
t
=
∑
α
t,i
a
i
(5)
i
其中,
α
t,i
表示图像区域
a
i
在
t
时刻被解码器选中输入
下一时间步长的概率。
在图像描述模型应用中,应用软注意力机制可以使
得模型更加平滑且可微分,缺点是当输入数据量很大
时,相应的参数量将很大,对于硬件要求很高。相比而
言,由于软注意力机制良好的解释性,其在主流的研究
中得到了更广泛的应用。
2.1.2相关工作
Xu等人
[32]
在2016年在NIC模型的基础上把注意力
机制应用在图像描述的图像特征中。其基本思想是将
编码阶段获取的图像特征进行注意力处理,解码阶段使
用LSTM。在NIC模型中,生成预测句子中的每一个单
词时,没有考虑图片中对应的位置,它接受的输入是上
一步预测得到的单词和隐藏层的输出,注意力机制就是
在预测每一步单词的同时加入对应在图片中的位置信
息,即
h
t+1
=f(h
t
,x
t
,z
t
)
,
z
t
∈R
D
。如图5所示,模型在
预测下划线单词能关注图中亮点部分信息,而不是使用
整张图片的编码信息进行输入。该文章提出了两种注
意力机制:硬注意力机制和软注意力机制。训练时模型
接受的输入是一张图片和对应的描述,描述中的每一个
词会被编码为一个one-hot向量。在LSTM中的解码部
分,与NIC模型从CNN的最后接一个全连接层来生成
固定长度的向量不同,而是直接获得卷积的结果,也就
是一张张特征图。特征图的尺寸为
n×n
,数量为
D
,实
验可知,每一张特征图中对应位置也就是关注的图片中
Asurprisedguystaringat
Adultwithlaptopwithdoglying
acake.
nexttohim.
ThreepeopleonahillstartingAmanwatchingtheballover
d.
图5Attention机制可视化
2021,57(9)
13
的相同的位置,整张图片关注区域的集合可以表示为
a=
{
a
1
,a
2
,…,a
L
}
,a
i
∈R
D
,L=n×n
。这里集合中的每
一个向量也就对应图片中某个区域的特征信息。
Lu等人
[33]
提出了注意力机制的改进工作。这项工
作考虑生成描述时与视觉信息无关词的问题,如“the”
“of”这些词和图片内容是无关的,而且有些需要视觉特
征来生成的词,也可以直接通过语言模型进行预测,例
如“takingonacell”后生成“phone”,因此在LSTM上
进行了扩展,加入了“岗哨向量”,存储着解码器中已有
的知识信息。同时提出新的自适应注意力机制,使得模
型在生成每个词时,可以决定模型是关注视觉信息还是
只依靠语言模型,如果需要关注视觉信息,通过空间注
意力来决定关注图像的哪个区域,其机制如图6所示。
自适应上下文的向量定义为
C
t
,这个向量融合图像的
空间特征和视觉哨岗向量
β
t
。具体计算公式如公式
(6)所示:
ì
í
(
V,h
k
ï
C
t
=g
t
)
=
∑
α
ï
i=1
ti
v
ti
=softmax
(
z
t
)
⋅v
ti
î
C
t
=β
t
s
t
+
(
1-β
t
)
(6)
c
t
这个创新的改进在当时达到了最好的水平,并且在
现在的COCO排行榜上仍排名很高。
t
x
h
h
t
t
LSTM
s
t
Attention
c
t
MLP
y
t
h
t-1
V
c
t
α
t1
β
t
α
t2
α
t3
…
α
tL
h
t
V
…
v
1
v
2
v
3
v
L
s
t
图6视觉岗哨的自适应注意力模型
Anderson等人
[24]
引入了Top-down、Bottom-up机制。
该模型编码器使用目标检测算法FasterR-CNN来进行
提取图像的区域特征。为了提升提取特征的能力,对
FasterR-CNN的输出和损失函数进行了改进,设计了
属性分类的部分。Bottom-up机制用来提取图像各区域
的特征向量,Top-down的机制用来分配Bottom-up提取
的特征对文本描述的贡献度,两者提取到的特征组合得
到联合注意力权重。在解码阶段使用一个双层LSTM
模型,分别是AttentionLSTM和LanguageLSTM,由软
注意力加权后的图像特征向量和AttentionLSTM的输
出作为LanguageLSTM的输入,产生最终的描述。这
142021,57(9)
ComputerEngineeringandApplications计算机工程与应用
样的Top-down、Bottom-up机制能够使模型关注图像中
重要的对象目标,使得描述的结构主次分明。这项工
作在编码和解码阶段的改进在当前仍具有极高的利用
价值。
Huang等人
[34]
在文献[35]工作的基础上加入了AoA
(AttentiononAttention)模块,该模块增加另一种注意
来扩展了常规注意机制。该模块通过两个线性变换生
成一个“信息向量”和一个“注意门”。信息向量通过线
性变换从当前上下文和关注结果中导出,并存储注意力
信息与来自当前上下文的信息。注意门获取查询信息
和注意力结果,并通过另一个线性变换加以sigmoid激
活得出。随后,AoA通过使用逐元素乘法将注意门应用
于信息向量来增加另一个注意力,得到“关注信息”,即
预期的有用知识。在该模型中,AoA模块应用在编码器
和解码器中,在编码器中,首先提取图像中的特征向量,
并采用自注意力模块对它们之间的关系进行建模,然后
应用AoA来衡量它们之间的关联程度。在解码器中,
AoA模块能过滤词嵌入向量
c
t
中无关的信息,仅保留
注意力部分,随后使用LSTM进行解码输出。这样组成
的一个AoANet,结合强化学习能够更好地解决不相关
注意力问题,达到当时最优的性能。
的表达。基于这样的考虑,有研究者把在图像领域有着
优异表现的生成对抗网络方法融入到图像描述中。
[36]
生成对抗网络(GAN),由一个生成网络和一个判
别网络组成,二者互相竞争训练,最后达到一种平衡。
如图7所示,生成网络通过机器生成数据(大部分情况
下是图像),目的是“骗过”判别网络,判别网络判断这张
图像是真实的还是机器生成的,目的是找出生成网络做
的“假数据”。GAN的核心思想是基于判别网络的“间
接”训练,判别网络本身也在动态更新。
真实图片集
采样
判别网络
随
机
输
入
生成网络
采样
真/假
图7GAN基本结构
2.1.3小结
注意力机制最初在计算机视觉领域提出,在自然语
言处理领域也得到了广泛的应用。对于结合计算机视
觉和自然语言处理的图像描述研究来讲,注意力机制已
成为不可缺少的一个组件,也是当前研究的重点之一。
在解码器生成下一时间步长的单词时,注意力机制能够
起到让模型将“注意力”集中到图像中最相关的那个区
域,使得图像和生成文本间联系更加紧密,因此能达到
很好的效果。
2.2生成对抗网络的方法
2.2.1概念
先前的图像描述方法主要通过极大似然估计
(MLE)的思想来训练模型,即最大化训练样本出现的可
能性。传统的编码器-解码器架构在训练上多采用交叉
熵作为损失函数,这样会使模型在生成的图片描述会高
度模仿GroundTruth,这是全监督学习的优势,也是局
限所在,它生成的描述会更加泛化,从而抑制了多样化
a
C
N
N
manisboard[end]
2.2.2相关工作
Dai等人
[37]
首次将ConditionalGAN运用在图像描
述,该方法生成的图片描述贴近人类的表达,改善了句
子的自然性和多样性。如图8所示,该模型由一个生成
网络和一个判别网络组成。生成网络使用传统的编码
器-解码器架构,用CNN提取的图像特征及噪声作为输
入,用LSTM生成句子。随后通过蒙特卡洛树搜索算法
从判别网络得到损失,并通过策略梯度算法更新参数,
输入图像得到伪造的句子描述。判别网络用LSTM对
句子编码,然后与图像特征一起处理,得到一个概率
值。在训练判别网络时,把对自然性的判别和对相关性
的判别区分开,也就是说,判别网络既要判别句子是否
像是人类生成的,又要判别句子和图片是否相关。这项
工作以产生多样性描述为切入点引入了Conditional
GAN的结构,实验证明在多样性会明显好于传统的模
型,但是该模型算法和人类描述还是有着不小的差距。
同年,Shetty等人
[38]
也同样使用了ConditionalGAN
的结构在图像描述上,其主体结构与上一项工作差别不
大。不同之处主要是在输入项中除CNN和噪声特征
外,还有目标检测的特征,通过常用的目标检测网络
FasterR-CNN得到。为了让生成网络捕捉到更清晰的
目标信息,在改用Gumbel-Softmax
[39]
的技巧把采样过程
C
N
N
sentence
LSTM
Sentence1
Sentence2
Sentence3
C
N
N
0.37
Sentence1
Sentence2
Sentence3
D
r
o
p
o
u
t
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
z
[start]
a
mana
board
[start]
a
mana
board
(1)Gforsentencegeneration
图8
(2)Eforsentencegeneration
Dai等人模型
L
S
T
M
L
o
g
i
s
t
i
c
p(w
1
)
p(w
2
)
p(w
3
)
p(w
T-1
)
p(w
T
)
……
(3)Gforparagraphgeneration
许昊,等:深度神经网络图像描述综述
近似成连续可微的操作取代策略梯度算法来更新参
数。与文献[37]区别在于提出了一个判别网络,它接受
图片与其对应的描述,并惩罚生成网络组内相似度高的
描述。这个判别网络有两个计算距离的核心,一个计算
图片与描述间的距离来判断描述是否准确,另一个计算
不同描述间的距离来判断描述是否足够多样化。这种
的机制能够使得生成网络生成更加多样化的描述语句。
此外,Zhang等人
[40]
提出的模型由两个不同的GAN
组成。第一个GAN基于文本描述生成初始的形状,基
础的颜色,然后从随机noise中绘出背景分布,产生低分
辨率图像,第二个GAN通过结合文本描述,进行图像的
细致化绘制,产生高质量的图像。Shekhar等人
[41]
拓展
了COCO数据集,并通过对抗样本验证了Lavi模型的鲁
棒性,Dai等人
[42]
则使用对抗样样本训练解决图像描述
任务生成的描述缺少独特性的问题。可以看出,在使用
生成对抗网络来训练的模型能解决生成的描述缺少多
样化的问题。
以上的方法主要是基于公开数据集上的有监督学
习,近年来有些研究者开始使用无监督的方式训练图像
描述的模型。Feng等人
[43]
首次提出了这样的一个无监
督的模型,它使用对抗文本生成方法在语料库中训练一
个语言模型,生成网络接收CNN提取的图像特征,产生
基于该特征的句子。判别网络判断该句子是模型产生
的,还是来自语料库的真实句子。生成网络通过生成尽
可能真实的句子来骗过判别网络,为了实现这个目标,
模型在每个时间步骤给生成网络一个奖励,并将此奖励
命名为对抗性奖励。通过预训练好一个视觉检测器,对
每幅图像中检测里面的视觉概念,如果生成的句子里包
含了视觉概念,那么给奖励。为了产生的描述比较准
确,图像和句子被投射到一个共同的潜在空间。给定投
影图像特征,可以解码对应的描述,进一步用于重建图
像特征。同样,可以将句子从语料库编码到潜在的空间
特征,然后重建句子。通过对生成的句子进行双向重
构,使得生成的句子能够很好地表达图像的语义,进而
改进了图像字幕模型。这样基于无监督学习的模型能
够更好地生成多样性描述,为研究者的后续研究提供了
一个新的方向。
2.2.3小结
通过生成网络和判别网络间的博弈,生成对抗网络
的在图像描述算法中的应用能使解码器生成比较逼真
的句子,文字更加自然和多样。但也存在着在评价标准
中得分不高的缺点。
2.3强化学习的方法
2.3.1概念
强化学习
[44]
是机器学习一个领域,它主要包含智能
体(Agent)、环境(Environment)、行动(Action)、奖励
Reward)四个元素。智能体通过交互和反馈的方式进
2021,57(9)
15
行训练,环境从中获得惩罚或者奖励,最终解决特定的
任务。图9描述了强化学习的基本流程。强化学习在
深度学习各领域也有着广泛的应用,传统的图像描述研
究,都是将单词生成看成一个分类的问题,主流模型也
是利用交叉熵损失函数来训练模型。但是利用交叉熵
损失函数训练存在以下问题:模型训练和测试阶段存在
曝光误差,交叉熵损失函数无法直接对不可微分的评价
标准进行微分运算。强化学习能够同时解决这两个问
题,它能够直接用来优化不可微分的评价标准。
Agent
reward
state
R
t
action
S
t
A
t
R
t+1
S
Environment
t+1
图9强化学习基本结构
2.3.2相关工作
Ranzato等人
[45]
将BLEU和ROUGE-2评价指标作为
强化学习的奖励来训练模型。在训练阶段,句子的前几
个单词使用交叉熵损失函数训练,剩下单词采用强化学
习训练。随着逐步提高强化学习的比例,最终整个语句
都用强化学习进行训练。针对在图像描述中交叉熵损
失函数无法直接对不可微分的评价标准进行微分运算
的问题,Liu等人
[46]
提出在强化学习中将SPICE和CIDEr
评价指标作为奖励,并使用策略梯度来优化上述指标的
参数。该模型使用蒙特卡罗方法来抽取样本并估计每
次时序上的回报奖励。在加入强化学习后,图像描述算
法的效果有了显著的提高。
Ren等人
[47]
同样使用强化学习训练图像描述模型,
并采用了Actor-critic结构。该模型将智能体定义为图
像描述生成网络,环境状态定义为当前状态的视觉特征
和生成的描述,行动定义为可用单词,奖励定义为在同
一向量空间内图像和其真实描述对应的视觉向量和文
本向量之间的相似度。其策略、奖励和价值函数利用深
度神经网络进行近似,视觉特征使用VGG-16网络进行
编码,语义特征使用RNN网络进行编码。它通过上述
结构训练一个“策略网络”和“价值网络”相互协同来生
成图像描述。策略网络由VGG16和LSTM组成,它用
于在给定当前状态预测下一步操作。价值网络在策略
网络结构基础上添加用于回归任务的多层感知器,用于
评估给定图像特征的下一个单词和生成语句的前一个
单词。实验证明在COCO数据集上该结构能够达到当
时最优的结果。
Rennie等人
[35]
提出了一种新的序列训练方法,简称
SCST(Self-CriticalSequenceTraining),并证明SCST
算法可以极大地改善图像描述算法的性能。该方法通
过直接对CIDEr评分标准进行优化,该模型基于策略梯
(
162021,57(9)
ComputerEngineeringandApplications计算机工程与应用
度的强化学习算法建立一个基线,即通过贪婪搜索算法
选出概率前
n
大的句子作为这个基线,模型会抑制得分
在基线以下的语句,激励得分在基线以上的语句。这可
以使模型更有效地对CIDEr评分标准进行训练,并使用
策略梯度来更新模型。这样的SCST方法在MSCOCO
数据集上取得了当时的最优结果。后来的很多研究者
也在这样的一个模型进行了改进。
2.3.3小结
强化学习在图像描述算法中的应用主要表现在对
评价标准的直接优化,从源头上能显著提升生成描述的
质量,因此在已有模型上加入强化学习算法能够有效地
提升模型的性能。
2.4图卷积网络的应用
2.4.1概念
图卷积网络(GCN)是对图数据类型执行卷积的网
络,而不是CNN对像素组成的图像执行卷积。一般地,
图数据可以用
G=(V,E)
来表示,
V
代表图的顶点,
E
代表图的边,图10描绘出图卷积网络的基本框架。
03
25
14
03
03
25
25
03
14
14
25
14
03
25
14
…
图10图卷积网络结构
CNN旨在从图像中提取最重要的信息以对图像进
行分类,GCN也会在图形上通过过滤器来寻找有助于
对图形中的节点进行分类的基本顶点和边缘。在CNN
中,所有像素之间的节点连接是统一的,这足以解决图
像分类的问题。但在节点连接是动态的情况下,CNN
将达到其极限,因为CNN仅适用于具有规则结构的数
据(欧几里德域数据),而GCN能够处理非欧几里德域
数据。因此GCN在处理图像分类等任务上有着优异的
性能。
2.4.2相关工作
Yao等人
[48]
提出了一个层次解析(HIP)的结构。该
结构会将图片解析成树状结构:整张图片作为该结构
的根节点,由FasterR-CNN提取图片得到的一系列
Region-level区域作为中间节点,由另一个FasterR-CNN
来提取图片的Instance-level区域作为叶子节点。在该
层次结构上,构建具有区域级别的有向边的语义图,其
中顶点表示每个区域,而边缘表示各区域之间的关系。
利用图卷积网络丰富该语义图各区域间的视觉关系,这
能显著改善图像描述的质量。该模型使用了GCN结合
图像内两种不同的特征,使得能在解码阶段生成高质量
的描述,增强了模型的可解释性。
Chen等人
[49]
提出了一个抽象场景图(AbstractScene
Graph,ASG)的结构,见图11。应用图结构来提取图像
内主观想表达的物体、属性以及关系特征,该结构能够
更细粒度反映出用户主观想表达的描述意图,同时生成
的描述也更加多样化。ASG模块中设置三类节点:物体
节点(obj)、属性节点(attr)和关系节点(rel),这样能够
充分抽取出图像中的特征,在应用图注意力机制和更新
机制下,通过Up-DownAttention中的双层LSTM来生
成多样性的描述。上述模型能够基于给定的ASG模型
来主动地实现更好的交互性、可解释性、多样性描述。
Wang等人
[50]
使用了类似的图结构对图片中的节点进行
增强,并使用时序卷积神经网络(TCN)沿时间维度建立
多张图片之间的交互,得到集合中图像内部关系和跨图
像关系的特征,最后输入到层次化解码器中来生成一段
小故事。上述跨图片生成可解释性段落的思路也是未
来图像描述的一个研究方向。
ImageASG
图11ASG结构
2.4.3小结
人类看图描述时,会将图像抽象看作一个场景,然
后观看和推测图像内各目标之间的关系,将这样的关系
转化为图结构能够更好地保存特征的可解释性与推理
性。因此在图像描述中应用GCN能更好将图像中物体
间的特征保留,并和文本更好地匹配来生成高质量的描
述文本。
2.5小结
在现在主流的图像描述模型中,都会在编码器-解
码器的基本架构上加入注意力机制来提高模型的性能,
注意力机制能够在生成文本时突出图像中的主体,并能
够准确表述出主体间以及与其他目标之间的关系,这也
是目前注意力机制在图像描述模型广泛应用的原因。
生成对抗网络(GAN)的应用,其通过生成网络和判别
网络间的博弈来生成更加生动的、贴近原图片的自然化
描述,虽然其评价得分不高,其特点对于机器人视觉或
者盲人导航却很适用。强化学习从评价标准出发,利用
强化学习的方法对其进行优化,可以说是更加标准化的
许昊,等:深度神经网络图像描述综述
表1
方法
Attention
GAN
强化学习
GCN
优点
获取图像全局和局部间的关系;
获取图像对应区域和文本间关系;
消除对序列生成长度的限制
生成文本更加自然多样化
生成文本高度接近训练样本
更有效提取分析图像内各目标间的
2021,57(9)
不同图像描述方法性能对比
缺点
模型增加权重参数,训练时间增加;
硬注意力不可微,需结合其他方法
评价指标得分不理想
需要大量的样本进行学习
灵活性差、可扩展性差、收敛慢
使用场景
基本适用目前主流的模型
机器人领域、盲人导航
图像检索、医学CT报告生成
基本适用主流的模型
17
关系;在图像领域适用性广
一种措施。这对于图像检索、医学CT报告生成这样有
格式化需求的场景是个不错的选择。GCN能有效地抽
取图像内各个目标之间的联系,并对节点特征信息和结
构信息进行端对端的学习,其在图像描述的公开数据集
上能够生成具有交互性、可解释性、多样性描述。只是
随着网络层数的增加,模型的性能会大幅下降,并且其
可扩展性差,模型参数过于冗余,收敛慢,训练时间长。
各方法的性能对比如表1所示。
3实验分析与对比
本章首先整理了目前应用于图像描述的公开图像
数据集,分别进行介绍和对比,接着介绍了针对图像描
述领域的主流评价标准,最后在此基础上对现有不同图
像描述结构的性能进行实验对比和分析。
3.1数据集
深度学习是在大量数据集的基础上驱动实现的,公
开数据集的提供有利于各领域的发展。在图像描述领
域,目前广泛应用的数据集主要有以下三种,主要对比
如表2所示。
表2数据集对比
数据集图片量标注量训练集验证集测试集
MSCOCO3280440775
Flickr30K31783528
VisualGenome
(1)MicrosoftCOCO数据集
[51]
MSCOCO数据集被广泛运用于目标检测、目标追
踪以及图像描述。该数据集旨在通过将对象识别问题
置于更广泛的场景理解问题的上下文中,从而提高对象
识别的最新水平,并通过收集包含自然环境中常见对象
的图像来实现。该数据集使用专业机构人为地对图片
进行描述,每张图片收录5句或者15句参考描述,可以
想象这项工作消耗了大量的人力物力。MSCOCO数据
集对应的标注集,一般以json格式保存。第一种是
MSCOCOC5,每张图像包含5句参考描述。第二种是
MSCOCOC40,这个标注集对应只包含着5000张图
片,这些图片是从MSCOCO数据集中随机筛选出来的,
与C5不同的是,它的每张图片包含着40句参考描述。
一般使用C5标注集即可满足训练的要求,通常使用
MSCOCO数据集也一般默认使用MSCOCOC5。这个
数据集也是目前图像描述研究者实验的首选。该数据
集有超过33万张图片,其中20万有标注描述,包含91
类目标,328000张图像中总共有250万个带有标签的实
例,这也是目前最大的语义分割数据集。
(2)Flickr8K
[52]
和Flickr30k
[53]
数据集
从数据集的命名可以看出这两个数据集分别包含
了8000和30000(确切是31783)张图片。这些图片从
Flickr相册网站选出。该数据集每张图片具有5句人工
标注的参考描述,这两个数据集的验证集和测试集使用
的图片数量都是1000张,剩余的图片用于训练阶段。
可以看出,相比MSCOCO数据集,这两个数据集在数量
方面存在着明显的不足,但由于MSCOCO数据量太大,
在训练过程中会花费大量的时间,Flickr数据集在初探
图像描述时可以使用来进行实验来验证模型的效果。
(3)VisualGenome数据集
[54]
VisualGenome(VG)数据集是斯坦福大学李飞飞
组在2016年发布的大规模图像语义理解的数据集,初
衷是该数据集能够像ImageNet那样推动图像在高级语
义理解方面的研究。该数据集包含超过10万张图像,
其中每个图像平均具有21个对象,18个属性以及对象
之间的18对关系,在标注数据方面包含了每张图片的
目标,属性以及图像内目标间的关系。该数据集规范化
区域描述中的对象、属性、关系和名词短语,以及Word-
Net同义词集的问题答案对。它代表了图像描述、对象、
属性、关系和图片问答的最密集最大的数据集。而针对
VG数据集中的区域标注过程,该数据集的人工标注并
不是直接标注目标间的关系,不然标注员往往倾向于标
出一些高频而琐碎的关系,如wearing(woman,shoes),
而非聚焦图片中最显眼的部分。在生活中,人们在用自
然语言描述图片时,也更倾向于捕捉图片的主体部分,
所以,标注员最终被要求先给出描述,再根据描述来标
注区域(region)、边界框(boundingbox)、目标(object)、
关系(relationship)等其他内容。在最原始的VG数据集
中,数据太过庞大,其中目标的标注也过于杂乱,还有命
名模糊和boundingbox重叠的问题。在2019年Liang等
人
[55]
对这个数据集进行了改进,该数据集旨在提取图片
中真正与视觉相关的联系,同时也改善了原VG数据集
182021,57(9)
ComputerEngineeringandApplications计算机工程与应用
中谓语冗余的问题。在此使用此数据集进行特征表示
的预训练后,在图像描述模型的性能上有着普遍的提
升。该数据集提出时间相对较短,不少的研究工作开始
使用这个数据进行预训练,相信在不久的未来,VG数据
集会得到更加广泛的应用。
3.2评价指标
很显然,评价标准有权威性的是人类自己,但是要
对深度学习中海量的数据进行评价单靠人工是不现实
的,因此人们也提出了各类自动评价标准,旨在最终实
验的结果尽可能和人工评价相关接近。最主流的评价
标准有以下几种:BLEU、ROUGE、METEOR和CIDEr。
(1)BLEU
[56]
BLEU(BilingualEvaluationUnderstudy)最初是用
于评估从一种自然语言机器翻译为另一种自然语言得
到文本的质量的一种算法。这和图像描述算法评价生
成文本的要求是一致的,即对生成的待评价语句和人
工标注语句间的差异进行评分,得分输出在0~1之间。
该标准现已成为图像描述算法应用最广泛的计算标准
之一。
对于图像
I
i
,图像描述算法对于这个图像生成的
描述语句
c
i
,人工标注的五个描述语句集合
S
i
=
s
i1
,s
i2
,…,s
i5
}
∈S
,要对
c
i
进行评价。BLEU的计算公
式如下所示:
ì
ï
ï
∑∑
min
(
h
k
(
c
i
)
,max
j∈m
h
k
(
s
ij
)
)
ï
ï
CP
n
(
C,S
)
=
ik
ï
ï
∑∑
h
k
(
c
i
)
ï
ï
ik
í
ï
ï
ï
b
(
C,S
)
=
ì
í
1,l
C
>l
S
(7)
ï
e
1-l
S
/l
C
,l
ï
î
C
S ï ï N ï î BLEU N ( C,S ) =b(C,S)exp( ∑ ω n lgCP n (C,S)) n=1 其中,每一个语句用 n 元组 ω k 来表示的, n 元组 ω k 在 人工标注语句 s ij 中出现的次数记作 h k (s ij ) , n 元组 ω k 在待评价语句 c i ∈C 中出现的次数记作 h k (c i ) , l C 是待 评价语句 c i 的总长, l S 是人工标注语句的总长度。 b ( C,S ) 是一个简洁性惩罚机制,由于BLEU的评价标 准设计倾向于更短的句子,因为这样的精度分数会很 高,为了解决这个问题,该标准使用了乘以简洁性惩罚 参数来防止很短的句子获得很高的得分,具体规则在公 式(7)中可以看出,如果有多个候选的参考语句,该标准 会选择待评价语句和参考语句两者长度最近的那个参 考语句进行计算评价。BLEU得分越高,性能也就越好。 (2)ROUGE [57] ROUGE最初是用于评估自然语言处理中的自动摘 要和机器翻译的评价标准,它是由自然语言处理领域内 多名专家对指定数据给出专业的描述,然后将自动生成 的摘要或翻译与其进行比较。通过比较两者之间如 n 元语法,词序列和词对重叠的数目来评价自动摘要或者 翻译的质量。通过与专业性摘要的对比评价,能有效提 高模型的可靠性。ROUGE得分越高,性能也就越好。 (3)METEOR [58] METEOR最初也是用来评价机器翻译输出的标 准。该算法基于整个语料库的精度和召回的调和平均 值。简而言之,它对比待评价语句和参考语句之间一元 组的重叠部分,并根据语义、词干形式、精确度来匹配一 元组。相比BLEU标准,由于这个标准引入了外部知 识,因此评价时更加接近人类的判断。METEOR得分 越高,性能也就越好。 (4)CIDEr [59] 不同于上述标准,CIDEr是专门设计用于评价图像 描述算法的,它通过计算每个 n 元组的TF-IDF权重得 到待评价语句和参考语句之间的相似度,以此评价图像 描述的效果。一个 n 元组 ω k 在人工标注语句 s ij 中出 现的次数记作 h k (s ij ) ,在待评价语句中出现的次数记作 h k (c i ) , n 元组 ω k 的TF-IDF权重 g k (s ij ) 如下所示: g h æö k k ( s ij ) = ∑ ( s ij ) lg ç ç | I | ÷ ÷ (8) ω ç è I ∑ min(1, I ∑ h k (s pq )) ÷ l ∈Ω p ∈ q ø 其中, Ω 是所有 n 元组的语料库, I 是数据集中所有图 像的集合。可以看出,当有 n 元组频繁出现参考语句 中,TF给以该 n 元组更高的权重,IDF则会降低该 n 元 组在生成语句中的权重。简而言之,该方法会降低对图 像视觉内容没有帮助的高频单词的权重。 对于长度为 n 的 n 元组的 CIDEr n 评分计算公式 如下: CIDEr n ( c i ,S i ) = m 1 ∑ g n ( c i ) ∙g n ( s ij ) j g n ( c i ) g n ( s ij ) (9) 其中, g n ( c i ) ,g n ( s ij ) 分别是 g k ( c i ) 和 g k ( s ij ) 生成的向量, g n ( c i ) , g n ( s ij ) 则是对应向量的模。同样的,CIDEr 的得分越高,表明待评价语句和参考语句之间的相似度 越大,生成的语句的质量也就越好。 3.3实验结果对比与分析 本节主要进行实验的复现和对比,以BLEU、 METEOR、CIDEr三种不同的标准进行评价分析。实验 环境基于Ubuntu18.04系统,CPU为Inteli9-9900k,GPU 为NVIDIAGeForceRTX2080Ti,16GB内存,Python3.7+ Cuda10.1的Pytorch或者Tensorflow深度学习环境。 实验数据集使用MSCOCO2014的数据集和500MB 左右包含图像描述注释的json文件,在处理注释文件 时,删除了非字母字符,将剩余的字符转化为小写字母, { 许昊,等:深度神经网络图像描述综述 并将所有出现小于5次的单词替换为特殊的单词 UNK。最终在MSCOCO数据集中得到9517个单词,也 就是最终使用的语料库。 将生成语句的最大长度设为16,采用Dropout方法 防止过拟合,参数一般设为0.5。在训练损失函数阶段, 训练轮数一般设为30,其他参数如解码器输出向量维度 及解码器隐藏层维度 D ,beamsearch(集束搜索)数量 N ,批处理大小 B 在表3中列出, D 列中有两个维度 如500/1000)表示解码器中两个不同的解码器,其各自 隐藏层的维度。 表3模型参数 模型 DNB NIC [18] 51238 Karpathyetal. [20] 51237 Fangetal. [22] 51248 Lietal. [23] 512350 Up-Down [24] 1024310 Wangetal. [25] 512/1024316 NBT [28] 51238 MT umv [29] 512325 Xuetal. [32] 51238 AoANet [34] 1024310 SCST [35] 1024316 G-GAN [37] 1024364 Daietal. [42] 1024316 Fengetal. [43] 512310 HIP [48] 500/1000316 Chenetal. [49] 5123128 表4和表5中列举主流的一些图像描述模型。表4 中列举了上文所述在编码器-解码器架构的代表模型。 NIC [18] 和模型 [20] 是传统的编码器-解码器架构,一般地, 以NIC模型作为基准模型进行对比。模型 [22-24] 从编码 器端进行改进,相比NIC模型,这些模型的评价指标得 到了提升,这主要得益于更好地提取和利用图像的特 征。在模型 [22] 中是在编码中将关键字语义和图像的特 征进行结合,模型 [23-24] 利用目标检测的算法提取图像特 征,这样可以提取图像中的关键信息,能够使得生成文 本更加完整精确。模型 [25-30] 从解码器端进行改进,相比 NIC模型,这些模型的指标也得到提升。利用LSTM、 GRU、Transformer以及知识图谱等方法来解码图像特 征,将图像编码更好地“翻译”成文字描述。其中Trans- former和知识图谱的方法最终的指标提升最为显著,主 要是由于Transformer结合图像和文本各自的注意力信 息以及两者之间的联合注意力信息,知识图谱得益于引 入了外部知识体系,以此来能生成更接近人类的描述。 可以得出这样的结论:解码器端更好地提取并利用图像 的特征是会得到性能的提升,在编码器和解码器端提高 图像信息和文本信息的关联交互也能有效提高模型的 效果。 2021,57(9) 19 表4编码器-解码器架构的模型 方法模型 B-1B-2B-3B-4METEORCIDEr 基线 NIC [18] 66.646.132.924.623.785.5 Karpathyetal. [20] 62.545.032.123.019.566.0 编码器 Fangetal. [22] 69.5 —— 29.124.791.2 改进 Lietal. [23] 78.963.448.136.327.3120.8 Up-Down [24] 79.8 —— 36.327.7120.1 Wangetal. [25] 67.348.935.525.924.796.6 SemStyle [26] 65.3 —— 23.821.976.9 解码器 Anejaetal. [27] 72.555.541.029.925.197.2 改进 NBT [28] 75.5 —— 34.727.1107.2 MT umv [29] 77.1 ——— 28.6119.5 Luetal [30] 46.736.129.825.722.4161.6 表5不同方法融合模型 方法模型 B-1B-2B-3B-4METEORCIDEr 基线 NIC [18] 66.646.132.924.623.785.5 Up-Down [24] 79.8 —— 36.327.7120.1 Attention Xuetal. [32] 71.850.435.725.023.9 — Luetal. [33] 74.858.444.433.626.4104.2 AoANet [34] 81.065.851.439.429.1129.6 G-GAN [37] —— 30.520.722.479.5 GANDaietal. [42] 75.559.846.035.327.1114.2 Fengetal. [43] 58.940.327.018.617.954.9 SCST [35] ——— 35.427.1117.5 强化学习 Liuetal. [46] 75.459.144.533.225.7101.3 Renetal. [47] 71.353.940.330.425.193.7 GCN HIP [48] ——— 39.128.9130.6 Chenetal. [49] ——— 23.024.5204.2 表5中列举了添加注意力机制(Up-Down [24] 、Xuetal. [32] 、 Luetal. [33] 、AoANet [34] )、生成对抗网络(G-GAN [37] 、Daietal. [42] 、 Fengetal. [43] )、强化学习(SCST [35] 、Liuetal. [46] 、Renetal. [47] )、 图卷积神经网络方法(HIP [48] 、Chenetal. [49] )融合后模型的 性能。显而易见,加入注意力机制、强化学习后,实验 的效果都得到了显著的提高,所有的评价指标都有着 不错的提升。但是将对抗生成网络应用到模型中后,文 献[37]的指标降低了,但生成的文本其实更加自然多样 化,这是由于评价指标的限制,多样的描述文本反而得 不到很高的评分,这也是未来研究需要改进的地方。 基于图卷积神经网络的模型 [48-49] 在CIDEr的评价中得到 了所有模型中最高的得分,并有着显著的优势,可以看 出图结构在图像特征提取时能够更加细粒度提取图像 内各对象之间的关系,生成更加高质量的文本。 4目前挑战及未来发展方向 4.1主要挑战分析 近年来,在某些格式要求相对固定的领域,图像描 述算法能很好地代替人类生成满足需求的文本,比如医 学图像报告,通知文书等。目前,对于编码器-解码器架 构的改进还有着很多的挑战。 ( 202021,57(9) ComputerEngineeringandApplications计算机工程与应用 (1)模型如何正确理解图像的关键物体,并建立物 体间的联系,对最终模型的性能有着关键的影响。如何 更好地提取和利用图片中的特征,主流模型一般是使用 卷积神经网络或者目标检测算法进行特征提取,但图片 中的高层语义还是无法得到表述。基于注意力机制的 模型,能够一定程度上从图片部分区域出发去生成更符 合人类角度的描述,但还是存在一定的缺陷,当前在公 开数据集下训练的模型对未知的物体还是无法正确地 生成描述。 (2)图像描述的模型较为复杂,由于参数较多,模型 训练的步骤比较复杂,训练时间也较长,一般都以指数 量级继续训练,使得在实际应用时实时性不高。 (3)目前的模型依赖公开数据集训练,这样模型输 入一般是固定的图像特征,这样对于同一个图像的描述 内容基本没有变化,生成的文本会相对单一。 4.2未来发展方向 图像描述是一个相对新的研究任务,经过研究人员 近几年的发展,取得了巨大的进步。基于现有的研究成 果,图像描述任务仍有着很大的发展空间。 4.2.1从有监督到无监督 图像描述一般都是采用成对的图像-文本集的有监 督学习,在实际应用时,获取这样成对的图片文本是一 个耗费大量人力和时间成本的工程,这对于工业应用来 说,获取数据的成本太高了。无监督学习可以摆脱这样 的图像-文本集,大大节省了人力物力。使用公开数据 集的图片和从目标网站爬取的文本语料库进行无监督 学习,结合GAN的方法可以有效地解决问题,这样生成 的文本也更加得丰富多样化。 4.2.2从死板单一到丰富多样化 传统方法从同一张图片生成的描述基本是没有变 化的,这并不符合图像描述的初衷,因此采用无监督学 习以及ConditionalGAN、SeqGAN的应用,可以生成更 加自然灵活的语句。 4.2.3从语句到段落化 仅仅从图像中生成一句话往往很难完整地概括图 片中的完整内容,因此从图片生成段落是一个必然的趋 势,从几张有关联的图片生成一段故事也成为可能。 4.2.4从复杂到轻量化 当前的图像描述模型较为复杂,在实际应用时往往 很难落实,设计出更加轻量级的网络结构能够更方便地 部署到工程落实中,乃至到手机等小型智能设备中,将 这样的技术落实到现实生活中能够更好方便人类,自动 驾驶、导航视觉障碍者都急需这样的技术支持。 4.2.5评价标准的更新 现如今的图像描述不再满足接近训练文本,这在近 几年的发展中已经趋于成熟,自然多样化的文本描述才 是图像描述的要求归宿,因此现如今的评价标准已经无 法满足这样的需求了,新的评价标准需求迫在眉睫。 5结束语 本文从图像描述在深度神经网络中的发展应用出 发,结合模型结构和算法的演变发展综述具有代表性质 的图像描述方法,并对此进行不同方法的大致分类,在此 基础上进行梳理和对比,并在公开数据集上进行了实验 对比。实验表明,图像描述在基于编码器-解码器架构上 已逐渐趋于成熟,在编码阶段旨在提取更高层次的语义 关系来为后续解码阶段生成更为相关的描述,生成对抗 网络和图卷积神经网络的引入为生成更多样化、人性化 的描述提供了可能。为了应对当前社会环境的应用需 求,图像描述的发展还有着不少的挑战。因此,基于深度 神经网络的图像描述进一步研究还有很大的发展空间。 参考文献: [1]KRIZHEVSKYA,SUTSKEVERI,et classificationwithdeepconvolutionalneuralnetworks[J]. CommunicationsoftheACM,2017,60(6):84-90. [2]HEK,ZHANGX,RENS,siduallearning forimagerecognition[C]//ProceedingsoftheIEEECon- ferenceonComputerVisionandPatternRecognition, 2016:770-778. [3]HUANGG,LIUZ,VANDERMAATENL,y connectedconvolutionalnetworks[C]//Proceedingsofthe IEEEConferenceonComputerVisionandPatternRec- ognition,2017:4700-4708. [4]GIRSHICKR,DONAHUEJ,DARRELLT, featurehierarchiesforaccurateobjectdetectionand semanticsegmentation[C]//ProceedingsoftheIEEECon- ferenceonComputerVisionandPatternRecognition, 2014:580-587. [5]GIDARISS,detectionviaa multi-regionandsemanticsegmentation-awareCNN model[C]//ProceedingsoftheIEEEInternationalConfer- enceonComputerVision,2015:1134-1142. [6]WANGX,SHRIVASTAVAA,GUPTAA.A-fast-RCNN: hardpositivegenerationviaadversaryforobjectdetec- tion[C]//ProceedingsoftheIEEEConferenceonCom- puterVisionandPatternRecognition,2017:2606-2615. [7]ZHOUB,LAPEDRIZAA,XIAOJ,ngdeep featuresforscenerecognitionusingplacesdatabase[J]. AdvancesinNeuralInformationProcessingSystems, 2014,27:487-495. [8]CORDTSM,OMRANM,RAMOSS,yscapes datasetforsemanticurbansceneunderstanding[C]//Pro- ceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2016:3213-3223. 许昊,等:深度神经网络图像描述综述 [9]XIONGZ,YUANY,:modalityseparation networksforRGB-Dscenerecognition[J].Neurocomputing, 2020,373:81-89. [10]KULKARNIG,PREMRAJV,ORDONEZV,lk: understandingandgeneratingsimpleimagedescriptions[J]. IEEETransactionsonPatternAnalysisandMachine Intelligence,2013,35(12):2891-2903. [11]ELLIOTTD,bingimagesusing inferredvisualdependencyrepresentations[C]//Proceedings ofthe53rdAnnualMeetingoftheAssociationfor ComputationalLinguisticsandthe7thInternationalJoint ConferenceonNaturalLanguageProcessing,2015: 42-52. [12]KUZNETSOVAP,ORDONEZV,BERGA,tive generationofnaturalimagedescriptions[C]//Proceedings ofthe50thAnnualMeetingoftheAssociationfor ComputationalLinguistics,2012:359-368. [13]KUZNETSOVAP,ORDONEZV,BERGTL,etal. Treetalk:compositionandcompressionoftreesfor imagedescriptions[J].TransactionsoftheAssociation forComputationalLinguistics,2014,2(9):351-362. [14]ZAREMBAW,SUTSKEVERI,ent neuralnetworkregularization[J].arXiv:1409.2329,2014. [15]耿丽丽,牛保宁.深度神经网络模型压缩综述[J].计算机 科学与探索,2020,14(9):1441-1455. [16]李睿凡,梁昊雨,冯方向,等.全卷积神经结构的段落式图 像描述算法[J].北京邮电大学学报,2019,42(6):155-161. [17]朱欣鑫.基于深度学习的图像描述算法研究[D].北京:北 京邮电大学,2019. [18]VINYALSO,TOSHEVA,BENGIOS,dtell: aneuralimagecaptiongenerator[C]//Proceedingsofthe IEEEConferenceonComputerVisionandPatternRec- ognition,2015:3156-3164. [19]BENGIOS,VINYALSO,JAITLYN,led samplingforsequencepredictionwithrecurrentneural networks[J].AdvancesinNeuralInformationProcessing Systems,2015,28:1171-1179. [20]KARPATHYA,sual-semanticalign- mentsforgeneratingimagedescriptions[C]//Proceedings oftheIEEEConferenceonComputerVisionandPattern Recognition,2015:3128-3137. [21]SIMONYANK,epconvolutional networksforlarge-scaleimagerecognition[J].arXiv:1409. 1556,2014. [22]FANGH,GUPTAS,IANDOLAF,ptions tovisualconceptsandback[C]//Proceedingsofthe IEEEConferenceonComputerVisionandPattern Recognition,2015:1473-1482. [23]LIN,ationingwithvisual-semantic LSTM[C]//Proceedingsofthe27thInternationalJoint 2021,57(9) 21 ConferenceonArtificialIntelligence,2018:793-799. [24]ANDERSONP,HEX,BUEHLERC,-up andtop-downattentionforimagecaptioningandvisual questionanswering[C]//ProceedingsoftheIEEECon- ferenceonComputerVisionandPatternRecognition, 2018:6077-6086. [25]WANGY,LINZ,SHENX,onkey:image captioningbyskeleton-attributedecomposition[C]//Pro- ceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2017:7272-7281. [26]MATHEWSA,XIEL,le:learningtogen- eratestylisedimagecaptionsusingunalignedtext[C]// ProceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2018:8591-8600. [27]ANEJAJ,DESHPANDEA,u- tionalimagecaptioning[C]//ProceedingsoftheIEEE ConferenceonComputerVisionandPatternRecognition, 2018:5561-5570. [28]LUJ,YANGJ,BATRAD,babytalk[C]// ProceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2018:7219-7228. [29]YUJ,LIJ,YUZ,odaltransformerwith multi-viewvisualrepresentationforimagecaptioning[J]. IEEETransactionsonCircuitsandSystemsforVideo Technology,2019. [30]LUD,WHITEHEADS,HUANGL,-aware imagecaptiongeneration[J].arXiv:1804.07889,2018. [31]LINZ,FENGM,SANTOSCN,turedself- attentivesentenceembedding[J].arXiv:1703.03130,2017. [32]XUK,BAJ,KIROSR,,attendandtell: neuralimagecaptiongenerationwithvisualattention[C]// InternationalConferenceonMachineLearning,2015: 2048-2057. [33]LUJ,XIONGC,PARIKHD,gwhento look:adaptiveattentionviaavisualsentinelforimage captioning[C]//ProceedingsoftheIEEEConferenceon ComputerVisionandPatternRecognition,2017:375-383. [34]HUANGL,WANGW,CHENJ,ionon attentionforimagecaptioning[C]//Proceedingsofthe IEEEInternationalConferenceonComputerVision, 2019:4634-4643. [35]RENNIESJ,MARCHERETE,MROUEHY,- criticalsequencetrainingforimagecaptioning[C]//Pro- ceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2017:7008-7024. [36]GOODFELLOWI,POUGET-ABADIEJ,MIRZAM,etal. Generativeadversarialnets[J].AdvancesinNeuralInfor- mationProcessingSystems,2014,27:2672-2680. [37]DAIB,FIDLERS,URTASUNR,sdiverse andnaturalimagedescriptionsviaaconditionalgan[C]// 222021,57(9) ComputerEngineeringandApplications计算机工程与应用 ProceedingsoftheIEEEInternationalConferenceon ComputerVision,2017:2970-2979. [38]SHETTYR,ROHRBACHM,ANNEH,ng thesamelanguage:matchingmachinetohumancaptions byadversarialtraining[C]//ProceedingsoftheIEEE InternationalConferenceonComputerVision,2017: 4135-4144. [39]JANGE,GUS,ricalreparameterization withgumbel-softmax[J].arXiv:1611.01144,2016. [40]ZHANGH,XUT,LIH,an:texttophoto- realisticimagesynthesiswithstackedgenerativeadver- sarialnetworks[C]//ProceedingsoftheIEEEInternational ConferenceonComputerVision,2017:5907-5915. [41]SHEKHARR,PEZZELLES,KLIMOVICHY,etal. FOILit!Findonemismatchbetweenimageandlan- guagecaption[J].arXiv:1705.01359,2017. [42]DAIB,stivelearningforimagecap- tioning[C]//Proceedingsofthe31stInternationalCon- ferenceonNeuralInformationProcessingSystems, 2017:898-907. [43]FENGY,MAL,LIUW,rvisedimagecap- tioning[C]//ProceedingsoftheIEEEConferenceonCom- puterVisionandPatternRecognition,2019:4125-4134. [44]SUTTONRS,rcementlearning: anintroduction[M].[S.l.]:MITPress,2018. [45]RANZATOMA,CHOPRAS,AULIM,ce leveltrainingwithrecurrentneuralnetworks[J].arXiv: 1511.06732,2015. [46]LIUS,ZHUZ,YEN,edimagecaption- ingviapolicygradientoptimizationofspider[C]//Pro- ceedingsoftheIEEEInternationalConferenceon ComputerVision,2017:873-881. [47]RENZ,WANGX,ZHANGN,inforcement learning-basedimagecaptioningwithembeddingreward[C]// ProceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2017:290-298. [48]YAOT,PANY,LIY,chyparsingforimage captioning[C]//ProceedingsoftheIEEEInternational ConferenceonComputerVision,2019:2621-2629. [49]CHENS,JINQ,WANGP,ouwish:fine- grainedcontrolofimagecaptiongenerationwithabstract scenegraphs[C]//ProceedingsoftheIEEE/CVFConfer- enceonComputerVisionandPatternRecognition, 2020:9962-9971. [50]WANGR,WEIZ,LIP,ellingfromanimage streamusingscenegraphs[C]//ProceedingsoftheAAAI ConferenceonArtificialIntelligence,2020:9185-9192. [51]CHENX,FANGH,LINTY,oftcococap- tions:datacollectionandevaluationserver[J].arXiv:1504. 00325,2015. [52]HODOSHM,YOUNGP,g imagedescriptionasarankingtask:data,modelsand evaluationmetrics[J].JournalofArtificialIntelligence Research,2013,47:853-899. [53]YOUNGP,LAIA,HODOSHM,age descriptionstovisualdenotations:newsimilaritymetrics forsemanticinferenceovereventdescriptions[J].Trans- actionsoftheAssociationforComputationalLinguistics, 2014,2:67-78. [54]KRISHNAR,ZHUY,GROTHO,genome: connectinglanguageandvisionusingcrowdsourced denseimageannotations[J].InternationalJournalofCom- puterVision,2017,123(1):32-73. [55]LIANGY,BAIY,ZHANGW,-vg:refocusing visually-relevantrelationships[C]//ProceedingsoftheIEEE InternationalConferenceonComputerVision,2019: 10403-10412. [56]PAPINENIK,ROUKOSS,WARDT,:a methodforautomaticevaluationofmachinetranslation[C]// Proceedingsofthe40thAnnualMeetingoftheAssoci- ationforComputationalLinguistics,2002:311-318. [57]:apackageforautomaticevaluationof summaries[C]//ProceedingsofACLWorkshoponText SummarizationBranchesOut,2004:74-81. [58]BANERJEES,:anautomaticmetric forMTevaluationwithimprovedcorrelationwithhuman judgments[C]//ProceedingsoftheACLWorkshopon IntrinsicandExtrinsicEvaluationMeasuresforMachine Translationand/orSummarization,2005:65-72. [59]VEDANTAMR,LAWRENCEZC,: consensus-basedimagedescriptionevaluation[C]//Pro- ceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2015:4566-4575.
2024年4月10日发(作者:商丹秋)
ComputerEngineeringandApplications计算机工程与应用
2021,57(9)9
深度神经网络图像描述综述
凯
1
,田英杰
2
,种法广
1
,王子超
1
1.上海电力大学计算机科学与技术学院
,
上海201300
许
2.国家电网公司上海电器科学研究院,上海200437
摘要:深度学习的迅速发展使得图像描述效果得到显著提升,针对基于深度神经网络的图像描述方法及其研究现
昊
1
,张
状进行详细综述。图像描述算法结合计算机视觉和自然语言处理的知识,根据图像中检测到的内容自动生成自然
语言描述,是场景理解的重要部分。图像描述任务中,一般采用由编码器和解码器组成的基本架构。改进编码器或
解码器,应用生成对抗网络、强化学习、无监督学习以及图卷积神经网络等方法能有效提高图像描述算法的性能。
对每类方法的代表模型算法的效果以及优缺点进行分析,并介绍适用的公开数据集,在此基础上进行对比实验。对
图像描述面临的挑战以及未来工作的发展方向做出展望。
关键词:深度神经网络;计算机视觉;图像描述;编码器-解码器架构;注意力机制
文献标志码:A中图分类号:TP391.41doi:10.3778/.1002-8331.2012-0539
ReviewofDeepNeuralNetwork-BasedImageCaption
XUHao
1
,ZHANGKai
1
,TIANYingjie
2
,CHONGFaguang
1
,WANGZichao
1
eofComputerScienceandTechnology,ShanghaiUniversityofElectricPower,Shanghai201300,China
aiElectricalResearchInstitute,StateGridCorporationofChina,Shanghai200437,China
Abstract:Withtherapiddevelopmentofdeeplearning,per
mainlyreviewsthemethodsofiaption
algorithmcombinestheknowledgeofcomputervisionandnaturallanguageprocessingtogeneratenaturallanguage
descriptionsbasedonthecontentdetectedintheimageautomatically,whichisanimportantpartofsceneunderstanding.
Generally,thebingencodersordecoders,
applyingmethodsofGenerativeAdversarialNetworks(GAN).ReinforcementLearning(RL),UnsupervisedLearning
(UL)andGraphConvolutionNeuralNetwork(GCN)caneffectivelyimprovetheperformanceofimagecaptionalgorithm.
Afterward,theeffect,advantager,public
basis,y,thechallengesofimagecaption
andpossibilityoffutureworkareprospected.
Keywords:deepneuralnetwork;computervision;imagecaption;encoder-decoderarchitecture;attentionmechanism
近十年是深度学习进入高速发展的黄金时期,各领
域基于深度学习算法的研究取得了丰富的成果,其工业
化的应用也惠及到人们生活中的方方面面。例如,可以
使用指纹、人脸或者虹膜进行手机解锁,在YouTube观
看外语视频时可以实现实时翻译字幕的显示。在年初
爆发新型冠状病毒的关键时期,大部分车站、高速收费
站等都可以使用红外线检测仪来安全快捷地检测人体
的体温,年初时由于疫情大家都戴起了口罩,这也带来
了一些小的生活烦恼:很多通过人脸识别解锁的手机
“认不得”自己了,但是随着深度学习在大数据中的学
习,这一问题很快得到了解决。深度学习在图像领域:
图像分类
[1-3]
、目标检测
[4-6]
、场景识别
[7-9]
等得到了广泛应
用,随后出现了多模态的图像语义技术,也就是将图像
和文本跨模态建立联系,进而使计算机能够从人类思维
的角度出发去处理图像中的信息,并能够识别各目标之
间的联系,最终以文字的形式表示出来。这项技术在人
们的生活中也得到了有效的应用,例如能够对盲人进行
导航。基于这样的需求,能够通过实时采取和分析视频
基金项目:国家自然科学基金(61872230,61802248,61802249,61702321);上海高校青年教师培养资助计划(ZZsdl18006)。
作者简介:许昊(1991—),硕士研究生,研究领域为计算机视觉、图像描述,E-mail:****************;张凯(1990—),博士,CCF
会员,研究领域为人工智能安全;田英杰,高级工程师;种法广,硕士研究生;王子超,硕士研究生。
收稿日期:2020-12-29修回日期:2021-02-26文章编号:1002-8331(2021)09-0009-14
102021,57(9)
ComputerEngineeringandApplications计算机工程与应用
图像,将采取的图像信息进行处理并输出成一段文本,
最后通过文本转语音传入盲人的耳中,使得盲人能够实
时地感知周围的环境。对于智能机器人的发展也同样
重要,图像描述的技术能够准确识别出提取图像中的关
键内容,并进一步理解图像中各物体间的关系,相当于
让它有了一双能够感知世界的“眼睛”,这对于机器人技
术的发展也具有巨大的推动作用。图像描述在图像检
索系统也有着一定的应用价值,传统的图像检索技术主
要是利用图像的标签进行对应索引的建立,但如果标签
存在错误,图像就不能被正确检索,如果将图像描述技
术应用其中,图像检索系统能正确地理解图像内在目标
的语义,这样系统也就能对庞大的无标签图像进行正确
有效地检索,这样图像检索的效率就能得到提高,检索
的范围也得到拓展。除此之外,该技术在其他领域也有
着应用前景,例如生成医学CT图像的报告,新闻标题的
生成等。近年来,图像描述的技术也趋于成熟,图像描
述的技术也发展到视频描述,例如根据短视频进行一篇
新闻报告的生成等。可以看出,图像描述技术在现实中
的有着巨大的实用价值。
图像描述作为把计算机视觉和自然语言处理相结
合的跨模态跨领域的任务。一般地,它将输入的图片通
过卷积神经网络提取图像特征并利用循环神经网络等
方法生成一段文字的描述,这段描述要求和图片的内容
高度相似。这对于人类来说是很简单的,通俗来说就是
看图说话,几岁的儿童就能很详细地描述一张图片的内
容。但对于计算机来说还是有很大的难度的,这要求
计算机利用模型来提取图片内的特征以及一些高层语
义信息,然后利用自然语言处理的方法表达图片中的
内容。
最初,传统的图像描述算法是通过模板填充
[10-11]
的
方法来生成图像描述,它主要是通过局部二值模式、尺
度不变特征转换或者方向梯度直方图等算法提取图像
的视觉特征,并根据这些特征检测对应目标、动作及属
性对应的单词词汇,最后将这些单词填入到模板中。不
难看出这样的方法虽然能够保证句型语法的正确性,也
有着很大的局限性,由于使用的模板是固定的,它也依
赖于硬解码的视觉概念影响,这样生成的语句格式相对
固定且形式单一,应用的场景也很局限,正因为这样天
然的缺陷,后续的改进也变得更加繁琐而无法应用到实
际的场景之中。还有一种是基于检索
[12-13]
的方法,它主
要是将大量的图片描述存于一个集合中,然后通过比较
有标签图片和训练生成图片描述两者间相似度来生成
一个候选描述的集合,再从中选择最符合该图片的描
述。这样的方法能保证语句的正确性,但语义的正确性
却难以保证,因而对图像描述的正确率较低。
得益于深度学习的发展,借助深度学习的方法推进
跨模态学习成为当前的主流,这也是目前使用最多的基
于生成的方法。这类方法的大致流程是先将图像信息
编码后作为输入放进模型,随后利用此模型生成该图像
对应的文本描述。如图1所示,这样的模型一般采用编
码器-解码器架构,编码器使用卷积神经网络(CNN
[1]
)提
取图像特征,解码器采用循环神经网络(RNN
[14]
)来生成
文本描述。这是在图像描述中普遍应用且效果最好的
模型,它在语句结构的完整性、语义的正确性,以及泛化
能力得到了一致的认可。
Someoneisontheirlaptop,
CNNRNN
whileadoglookson.
Asmalldogstandingnext
toapersononalaptop.
Therearetwopeopleonlap-
topsandadogsitting
betweenthem.
Adultwithlaptopwithdog
lyingnexttohim.
图1基于CNN-RNN的图像描述
1基本架构及改进
1.1编码器-解码器架构
本章对基于深度神经网络
[15]
的图像描述
[16-17]
基本架
构和改进进行介绍。首先,当前图像描述基本都是在编
码器-解码器架构上进行改进,基于编码器、解码器上的
改进主要如图2所示。
编码器-解码器基本框架
编码器
解码器
CNN
RNN/GRU/LSTM
CNN
目标检测
Transformer
GCN
知识图谱等
图2基本架构概述
在2015年,Vinyals等人
[18]
提出一个NIC的模型,这
个模型的灵感来自于谷歌2014年有关机器翻译的工
作,也就是著名的系列到序列(seq2seq)模型
[19]
,它着重
解决的是语言翻译的问题,最终也取得了很好的成绩,
这也是编码器-解码器架构的最初提出。在机器翻译
里,输入的是源语言,输出的是目标语言的翻译文字,由
于两句话的长度可能不等,该模型采用RNN网络对句
子进行了编码,转化为一个固定长度的向量,然后再将
这个向量输入到另一个RNN网络来进行解码,进而输
出翻译后的句子。这样的结构在机器翻译的模型中实
现了变长序列到变长序列的一个映射。对应到NIC模
型中就是图片到文字的一个映射。如图3所示,这篇论
文中的模型基于机器翻译模型上进行了改进,编码器使
用基于CNN的InceptionNet提取图像特征信息,解码器
许昊,等:深度神经网络图像描述综述
依旧使用RNN处理输入的图像信息来生成描述。在同
一时期,Karpathy等人
[20]
提出的结构和NIC模型几乎一
致,区别在于它使用VGGNet
[21]
作为图像特征提取器。
Asurprisedguystaringatacake
MM
M
M
MMM
M
TTTTTTTT
SSSSSSSS
LL
L
L
LLL
L
CNN
X
图3NIC模型
在NIC模型的训练阶段使用的是COCO数据集
中训练集和数据集中的图片及其对应的文本描述。在
编码阶段,模型用CNN将图片编码为向量
I
,
I
是一
个224×224×3的向量,这里的CNN使用的是Google
InceptionNet后接一层全连接层。对于图片相应的文
本描述,为每句描述添加一个start和end标记,也就是
图3中的
m
个
词,首先将句子中的每个单词编码成独热编码(one-hot)
的形式,如图3中的每一个LSTM模块的输入都是一个
m
维的向量,然后通过一个矩阵变换将这个
m
维向量
转换为一个512维的向量,即和图像的编码维度相同。
而在解码阶段,模型使用的是单层的LSTM网络,可以
用下列公式描述这个过程:
ì
ï
x
-1
=CNN(I)
í
ï
x
t
=W
e
S
t
,t∈
{
0,1,2,…,N-1
}
(1)
î
p
t+1
=LSTM
(
x
t
)
,t∈
{
0,1,2,…,N-1
}
其中,
N-1
表示句子的长度,不包括
记,LSTM可以表述成
h
t+1
=f(h
t
,x
t
)
,
h
t
表示为
t
时刻
LSTM的输出,这个公式可以理解为每一步的输出是上
一步的输出和当前时刻的输入的函数。对应到公式(1)
中,
h
-1
=0
,初始值为0,
h
0
=f(h
-1
,x
-1
)
,
x
0
=W
e
S
0
,
如此循环。LSTM每一步的输出后会接一个softmax分
类器,维度等于语料库中的词汇量,模型的损失是每一
步正确预测单词的负对数似然之和,如公式(2)所示:
L
(
I,S
)
=-
∑
N
lg(p
t
(S
t
))
(2)
t=1
使用这个损失函数来最大化每一步输出单词的概
率。在接下来的训练阶段,NIC模型选择已经在Ima-
genet上训练好的CNN模型,训练的第一阶段固定CNN
的参数不变,参与训练的有LSTM和wordembedding的
参数。在第二阶段再把CNN、LSTM和wordembedding
这三部分的参数一同进行训练。在预测阶段,有两种生
成描述的方式:第一种是在LSTM生成单词的每一步
选择模型输出概率最大的一个单词,直到预测输出到
定一个值
N
,论文中选用的值是3,那么在第一步选择
2021,57(9)
11
输出概率最大的三个单词,第二步依旧选择概率最大的
三个单词并与上一步生成三个单词的组合,即九个短语
的组合,然后再选取其中概率最大的三个短语,以此类
推。最终模型训练出来的模型具有很好的泛化能力。
Showandtell
[18]
和NeuralTalk
[20]
介绍了图像描述的
编码器-解码器架构,可以说是图像描述在深度神经网
络的启蒙之作,对后续图像描述的发展有着深远的影
响,使编码器-解码器架构成为图像描述的主流,对其他
相关预测模型也有着一定的借鉴意义。
1.2基于编码器改进
Fang等人
[22]
对编码器进行了改进,该方法可以分为
三步:第一步检测单词,采用使用多实例学习来训练视
觉检测器来识别生成描述中常见的单词,包括名词、动
词和形容词等不同部分。这样的方法可以避免有些描
述性词汇如beautiful不能在图片中被框出。第二步生
成句子,采用统计模型MELM来预测下一个单词的概
率。第三步重新排序句子,选择最符合的语句。通过提
取关键词作为输入来生成描述的方法为后续结合图像
和语义的编码方法提供了借鉴。
Li等人
[23]
在特征提取方法上使用目标检测算法
FastR-CNN提取目标检测框作为图像特征,并使用该
特征额外训练属性分类器来获取对象的属性,比如物体
的颜色、材质等。随后将图像特征和属性特征输入到视
觉语义LSTM中进行解码。在编码阶段使用目标检测
算法能够提取带有类似注意力效果的图像特征,为解码
器生成高质量文本提供了可能。Anderson等人
[24]
的工
作使用类似的编码器并改进了解码器,得到了当时的最
优结果。
1.3基于解码器改进
编码阶段主要是基于图像领域知识的应用,解码阶
段则是自然语言处理领域知识的创新改进和应用。
Wang等人
[25]
提出了一种新型的解码结构。人类在
看图描述的过程中,一般是先定位图片的位置和他们之
间的关系,然后再详细说明物体的属性。以此为基础,
他们设计了一种coarse-to-fine的方法。首先由Skel-
LSTM使用CNN提取的图像特征来生成骨架语句,然后
使用Attr-LSTM为骨架语句中的词语生成对应的属性
词,最后将这两部分结合生成完整的最终描述语句。
Mathews等人
[26]
为了生成高精度且具有语言风格的
图像描述,提出了一个分离语义和风格的结构,通过两
组GRU单元来实现的。一组GRU提取图像特征中的
语义对(词语、属性),另一组GRU是基于一本小说训练
得到。基于上述输入的语义对来生成最终富有语言风
格的描述。
此外,Aneja等人
[27]
提出了一种不同于用LSTM或
者RNN进行解码的方法,该工作启发式地利用卷积来
进行图像描述,达到不比传统LSTM差的效果。它的输
122021,57(9)
ComputerEngineeringandApplications计算机工程与应用
入输出和RNN一样,都进行了wordembedding,但将
RNN的部分换成了MaskedCNN,使用这样的方法能够
避免RNN的时序限制,如此可以在相同的参数量下有
更快的训练速度。
受模板生成方法的启发,Lu等人
[28]
提出了一种“插
槽”的图像描述方法,其生成句子中的插槽与图像区域
相关联,直接依据图像特征去预测单词。该结构在编码
阶段使用目标检测算法FastR-CNN提取图像的区域特
征。解码阶段将句子中的词语分为视觉词与文本词,如
果当前时刻所产生的词是文本词,那么这个单词通过语
言模型从文本词汇库中生成;如果是视觉词,由目标检
测算法直接由图像标定区域特征产生的视觉词进行填
充,最终形成描述。使用神经网络模型来提取句子模
板,有效地解决了传统模板填充语句呆板的问题。
Yu等人
[29]
提出使用Transformer作为解码器,Trans-
former是一种仅使用Attention而不使用RNN或CNN的
模型。该工作使用FasterR-CNN模型从图像中提取视
觉特征,经过Transformer进行再编码后输入另一个
Transformer进行解码,编码部分也可不经过Transformer
的编码直接输入到解码器中。由于Transformer能够获
得图像和文本各自注意力状态以及图像文本间的联合
注意力,因此能够生成更高质量的描述文本。
人类在描述一张图片时,不仅从图片本身获得相关
信息,还有着其他相关背景知识地支撑。知识图谱的发
展和应用也为这一方向提供了可能。Lu等人
[30]
在图像
描述中引入了知识图谱相关的知识。该工作先使用
CNN和LSTM的编码器-解码器架构来生成图像描述的
文本模板,然后使用基于KnowledgeGraph的集体推理
算法,根据实体类型和频率在模板中为每个槽填充通过
知识图谱检索的特定命名实体。最终的描述结果在结
构语义上能够得到不错的提升。
1.4小结
上述简要介绍了图像描述在编码器-解码器架构上
的一些代表性工作。(1)在编码阶段主要表现在引入了
目标检测和关键词提取。对于图像特征的提取影响着
后续文本生成的工作,在编码阶段要求更好地提取图片
内的信息以及图片内各目标之间的联系、目标检测以及
注意力机制等方法的使用都是出于这样的目的。(2)为
了编码器输出的特征能够更好的应用,在解码阶段创造
性地引入卷积神经网络(CNN)解码、双层解码器和知识
图谱等外领域的知识。不难看出,在未来相当一段时间
内,图像描述的研究工作还会在编码器-解码器架构上
进行创新和发展。
2方法实现及改进
在编码器-解码器架构上对于图像描述算法的后续
改进主要有这样四种方法:注意力机制、对抗生成网
络、强化学习、图卷积神经网络。图4简要概括了各类
方法。
基于深度神经网络的图像描述方法
注意力机制对抗生成网络强化学习图卷积神经网络
Hard-Attention
ConditionalGAN
Actor-Ctritic
HIP
Soft-Attention
SequenceGAN
SCST
ASG
Bottom-up
无监督学习
图4基于深度神经网络的图像描述方法
2.1注意力机制
2.1.1概念
从最基本的意义上讲,注意力定义为从所有可用信
息中选择一个子集进行进一步处理的过程。视觉注意
对于建立图像内部表示的时空连贯性至关重要。注意
力机制在图像描述领域的引入得到了惊人的效果。
随着生成描述语句的多样复杂化,对应的句子向量
也变长,为了应对这样的长序列,注意力机制在图像描
述中应用逐渐广泛。目前图像描述主流的注意力机制
有这样几种:自注意力(Self-Attention)
[31]
、硬注意力
HardAttention)
[32]
、软注意力机制(SoftAttention)
[32]
。
自注意力机制是一种与单个序列自身不同位置相
关联的注意力机制,其目的是计算同一序列的表示形
式。例如语句“Adogisrunningafteracat.”句中单
词的生成都依赖于与其余单词的内在联系。每个单词
v
i
与序列中其他单词
v
j
的内在联系
e
ij
可以用公式(3)
表示:
ì
í
e
ij
=a(v
i
,v
j
)
î
α
ij
=softmax(e
(3)
ij
)
在经过softmax层归一化后可以得到对应每个单词
的注意力权重,以此来进行选择后续的单词生成。
在图像描述模型应用中,自注意力机制一般结合
Transformer模块使用,Yu等人
[29]
应用的Transformer模
块中有这样的自注意力机制,这个模块能够获得图像信
息和文本信息各自注意力状态以及图像信息和文本信
息之间的联合注意力状态,因此使得模型性能得到不错
的提升。
硬注意力机制将集合向量中权重最大的一个向量
赋值为1,其他向量权重值为0,这样就达到了只关注权
值为1向量对应图像区域的目的。其上下文向量
z
t
可
以用公式(4)表示:
z
t
=
∑
s
t,i
a
(4)
i
i
其中,
a
i
表示图像区域
i
的向量,
s
t,i
表示当图像区域
a
i
(
许昊,等:深度神经网络图像描述综述
被选中时取值为1,否则为0。
在图像描述模型应用中,应用硬注意力机制能减
少训练的时间成本,缺点是模型不可微,需要采用更复
杂的技术进行处理,例如使用蒙特卡洛方法或者强化
学习等。
软注意力机制给以集合向量中每一个向量介于0
与1之间的注意力权重,权重之和为1。其上下文向量
z
t
可以用公式(5)表示:
z
t
=
∑
α
t,i
a
i
(5)
i
其中,
α
t,i
表示图像区域
a
i
在
t
时刻被解码器选中输入
下一时间步长的概率。
在图像描述模型应用中,应用软注意力机制可以使
得模型更加平滑且可微分,缺点是当输入数据量很大
时,相应的参数量将很大,对于硬件要求很高。相比而
言,由于软注意力机制良好的解释性,其在主流的研究
中得到了更广泛的应用。
2.1.2相关工作
Xu等人
[32]
在2016年在NIC模型的基础上把注意力
机制应用在图像描述的图像特征中。其基本思想是将
编码阶段获取的图像特征进行注意力处理,解码阶段使
用LSTM。在NIC模型中,生成预测句子中的每一个单
词时,没有考虑图片中对应的位置,它接受的输入是上
一步预测得到的单词和隐藏层的输出,注意力机制就是
在预测每一步单词的同时加入对应在图片中的位置信
息,即
h
t+1
=f(h
t
,x
t
,z
t
)
,
z
t
∈R
D
。如图5所示,模型在
预测下划线单词能关注图中亮点部分信息,而不是使用
整张图片的编码信息进行输入。该文章提出了两种注
意力机制:硬注意力机制和软注意力机制。训练时模型
接受的输入是一张图片和对应的描述,描述中的每一个
词会被编码为一个one-hot向量。在LSTM中的解码部
分,与NIC模型从CNN的最后接一个全连接层来生成
固定长度的向量不同,而是直接获得卷积的结果,也就
是一张张特征图。特征图的尺寸为
n×n
,数量为
D
,实
验可知,每一张特征图中对应位置也就是关注的图片中
Asurprisedguystaringat
Adultwithlaptopwithdoglying
acake.
nexttohim.
ThreepeopleonahillstartingAmanwatchingtheballover
d.
图5Attention机制可视化
2021,57(9)
13
的相同的位置,整张图片关注区域的集合可以表示为
a=
{
a
1
,a
2
,…,a
L
}
,a
i
∈R
D
,L=n×n
。这里集合中的每
一个向量也就对应图片中某个区域的特征信息。
Lu等人
[33]
提出了注意力机制的改进工作。这项工
作考虑生成描述时与视觉信息无关词的问题,如“the”
“of”这些词和图片内容是无关的,而且有些需要视觉特
征来生成的词,也可以直接通过语言模型进行预测,例
如“takingonacell”后生成“phone”,因此在LSTM上
进行了扩展,加入了“岗哨向量”,存储着解码器中已有
的知识信息。同时提出新的自适应注意力机制,使得模
型在生成每个词时,可以决定模型是关注视觉信息还是
只依靠语言模型,如果需要关注视觉信息,通过空间注
意力来决定关注图像的哪个区域,其机制如图6所示。
自适应上下文的向量定义为
C
t
,这个向量融合图像的
空间特征和视觉哨岗向量
β
t
。具体计算公式如公式
(6)所示:
ì
í
(
V,h
k
ï
C
t
=g
t
)
=
∑
α
ï
i=1
ti
v
ti
=softmax
(
z
t
)
⋅v
ti
î
C
t
=β
t
s
t
+
(
1-β
t
)
(6)
c
t
这个创新的改进在当时达到了最好的水平,并且在
现在的COCO排行榜上仍排名很高。
t
x
h
h
t
t
LSTM
s
t
Attention
c
t
MLP
y
t
h
t-1
V
c
t
α
t1
β
t
α
t2
α
t3
…
α
tL
h
t
V
…
v
1
v
2
v
3
v
L
s
t
图6视觉岗哨的自适应注意力模型
Anderson等人
[24]
引入了Top-down、Bottom-up机制。
该模型编码器使用目标检测算法FasterR-CNN来进行
提取图像的区域特征。为了提升提取特征的能力,对
FasterR-CNN的输出和损失函数进行了改进,设计了
属性分类的部分。Bottom-up机制用来提取图像各区域
的特征向量,Top-down的机制用来分配Bottom-up提取
的特征对文本描述的贡献度,两者提取到的特征组合得
到联合注意力权重。在解码阶段使用一个双层LSTM
模型,分别是AttentionLSTM和LanguageLSTM,由软
注意力加权后的图像特征向量和AttentionLSTM的输
出作为LanguageLSTM的输入,产生最终的描述。这
142021,57(9)
ComputerEngineeringandApplications计算机工程与应用
样的Top-down、Bottom-up机制能够使模型关注图像中
重要的对象目标,使得描述的结构主次分明。这项工
作在编码和解码阶段的改进在当前仍具有极高的利用
价值。
Huang等人
[34]
在文献[35]工作的基础上加入了AoA
(AttentiononAttention)模块,该模块增加另一种注意
来扩展了常规注意机制。该模块通过两个线性变换生
成一个“信息向量”和一个“注意门”。信息向量通过线
性变换从当前上下文和关注结果中导出,并存储注意力
信息与来自当前上下文的信息。注意门获取查询信息
和注意力结果,并通过另一个线性变换加以sigmoid激
活得出。随后,AoA通过使用逐元素乘法将注意门应用
于信息向量来增加另一个注意力,得到“关注信息”,即
预期的有用知识。在该模型中,AoA模块应用在编码器
和解码器中,在编码器中,首先提取图像中的特征向量,
并采用自注意力模块对它们之间的关系进行建模,然后
应用AoA来衡量它们之间的关联程度。在解码器中,
AoA模块能过滤词嵌入向量
c
t
中无关的信息,仅保留
注意力部分,随后使用LSTM进行解码输出。这样组成
的一个AoANet,结合强化学习能够更好地解决不相关
注意力问题,达到当时最优的性能。
的表达。基于这样的考虑,有研究者把在图像领域有着
优异表现的生成对抗网络方法融入到图像描述中。
[36]
生成对抗网络(GAN),由一个生成网络和一个判
别网络组成,二者互相竞争训练,最后达到一种平衡。
如图7所示,生成网络通过机器生成数据(大部分情况
下是图像),目的是“骗过”判别网络,判别网络判断这张
图像是真实的还是机器生成的,目的是找出生成网络做
的“假数据”。GAN的核心思想是基于判别网络的“间
接”训练,判别网络本身也在动态更新。
真实图片集
采样
判别网络
随
机
输
入
生成网络
采样
真/假
图7GAN基本结构
2.1.3小结
注意力机制最初在计算机视觉领域提出,在自然语
言处理领域也得到了广泛的应用。对于结合计算机视
觉和自然语言处理的图像描述研究来讲,注意力机制已
成为不可缺少的一个组件,也是当前研究的重点之一。
在解码器生成下一时间步长的单词时,注意力机制能够
起到让模型将“注意力”集中到图像中最相关的那个区
域,使得图像和生成文本间联系更加紧密,因此能达到
很好的效果。
2.2生成对抗网络的方法
2.2.1概念
先前的图像描述方法主要通过极大似然估计
(MLE)的思想来训练模型,即最大化训练样本出现的可
能性。传统的编码器-解码器架构在训练上多采用交叉
熵作为损失函数,这样会使模型在生成的图片描述会高
度模仿GroundTruth,这是全监督学习的优势,也是局
限所在,它生成的描述会更加泛化,从而抑制了多样化
a
C
N
N
manisboard[end]
2.2.2相关工作
Dai等人
[37]
首次将ConditionalGAN运用在图像描
述,该方法生成的图片描述贴近人类的表达,改善了句
子的自然性和多样性。如图8所示,该模型由一个生成
网络和一个判别网络组成。生成网络使用传统的编码
器-解码器架构,用CNN提取的图像特征及噪声作为输
入,用LSTM生成句子。随后通过蒙特卡洛树搜索算法
从判别网络得到损失,并通过策略梯度算法更新参数,
输入图像得到伪造的句子描述。判别网络用LSTM对
句子编码,然后与图像特征一起处理,得到一个概率
值。在训练判别网络时,把对自然性的判别和对相关性
的判别区分开,也就是说,判别网络既要判别句子是否
像是人类生成的,又要判别句子和图片是否相关。这项
工作以产生多样性描述为切入点引入了Conditional
GAN的结构,实验证明在多样性会明显好于传统的模
型,但是该模型算法和人类描述还是有着不小的差距。
同年,Shetty等人
[38]
也同样使用了ConditionalGAN
的结构在图像描述上,其主体结构与上一项工作差别不
大。不同之处主要是在输入项中除CNN和噪声特征
外,还有目标检测的特征,通过常用的目标检测网络
FasterR-CNN得到。为了让生成网络捕捉到更清晰的
目标信息,在改用Gumbel-Softmax
[39]
的技巧把采样过程
C
N
N
sentence
LSTM
Sentence1
Sentence2
Sentence3
C
N
N
0.37
Sentence1
Sentence2
Sentence3
D
r
o
p
o
u
t
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
L
S
T
M
z
[start]
a
mana
board
[start]
a
mana
board
(1)Gforsentencegeneration
图8
(2)Eforsentencegeneration
Dai等人模型
L
S
T
M
L
o
g
i
s
t
i
c
p(w
1
)
p(w
2
)
p(w
3
)
p(w
T-1
)
p(w
T
)
……
(3)Gforparagraphgeneration
许昊,等:深度神经网络图像描述综述
近似成连续可微的操作取代策略梯度算法来更新参
数。与文献[37]区别在于提出了一个判别网络,它接受
图片与其对应的描述,并惩罚生成网络组内相似度高的
描述。这个判别网络有两个计算距离的核心,一个计算
图片与描述间的距离来判断描述是否准确,另一个计算
不同描述间的距离来判断描述是否足够多样化。这种
的机制能够使得生成网络生成更加多样化的描述语句。
此外,Zhang等人
[40]
提出的模型由两个不同的GAN
组成。第一个GAN基于文本描述生成初始的形状,基
础的颜色,然后从随机noise中绘出背景分布,产生低分
辨率图像,第二个GAN通过结合文本描述,进行图像的
细致化绘制,产生高质量的图像。Shekhar等人
[41]
拓展
了COCO数据集,并通过对抗样本验证了Lavi模型的鲁
棒性,Dai等人
[42]
则使用对抗样样本训练解决图像描述
任务生成的描述缺少独特性的问题。可以看出,在使用
生成对抗网络来训练的模型能解决生成的描述缺少多
样化的问题。
以上的方法主要是基于公开数据集上的有监督学
习,近年来有些研究者开始使用无监督的方式训练图像
描述的模型。Feng等人
[43]
首次提出了这样的一个无监
督的模型,它使用对抗文本生成方法在语料库中训练一
个语言模型,生成网络接收CNN提取的图像特征,产生
基于该特征的句子。判别网络判断该句子是模型产生
的,还是来自语料库的真实句子。生成网络通过生成尽
可能真实的句子来骗过判别网络,为了实现这个目标,
模型在每个时间步骤给生成网络一个奖励,并将此奖励
命名为对抗性奖励。通过预训练好一个视觉检测器,对
每幅图像中检测里面的视觉概念,如果生成的句子里包
含了视觉概念,那么给奖励。为了产生的描述比较准
确,图像和句子被投射到一个共同的潜在空间。给定投
影图像特征,可以解码对应的描述,进一步用于重建图
像特征。同样,可以将句子从语料库编码到潜在的空间
特征,然后重建句子。通过对生成的句子进行双向重
构,使得生成的句子能够很好地表达图像的语义,进而
改进了图像字幕模型。这样基于无监督学习的模型能
够更好地生成多样性描述,为研究者的后续研究提供了
一个新的方向。
2.2.3小结
通过生成网络和判别网络间的博弈,生成对抗网络
的在图像描述算法中的应用能使解码器生成比较逼真
的句子,文字更加自然和多样。但也存在着在评价标准
中得分不高的缺点。
2.3强化学习的方法
2.3.1概念
强化学习
[44]
是机器学习一个领域,它主要包含智能
体(Agent)、环境(Environment)、行动(Action)、奖励
Reward)四个元素。智能体通过交互和反馈的方式进
2021,57(9)
15
行训练,环境从中获得惩罚或者奖励,最终解决特定的
任务。图9描述了强化学习的基本流程。强化学习在
深度学习各领域也有着广泛的应用,传统的图像描述研
究,都是将单词生成看成一个分类的问题,主流模型也
是利用交叉熵损失函数来训练模型。但是利用交叉熵
损失函数训练存在以下问题:模型训练和测试阶段存在
曝光误差,交叉熵损失函数无法直接对不可微分的评价
标准进行微分运算。强化学习能够同时解决这两个问
题,它能够直接用来优化不可微分的评价标准。
Agent
reward
state
R
t
action
S
t
A
t
R
t+1
S
Environment
t+1
图9强化学习基本结构
2.3.2相关工作
Ranzato等人
[45]
将BLEU和ROUGE-2评价指标作为
强化学习的奖励来训练模型。在训练阶段,句子的前几
个单词使用交叉熵损失函数训练,剩下单词采用强化学
习训练。随着逐步提高强化学习的比例,最终整个语句
都用强化学习进行训练。针对在图像描述中交叉熵损
失函数无法直接对不可微分的评价标准进行微分运算
的问题,Liu等人
[46]
提出在强化学习中将SPICE和CIDEr
评价指标作为奖励,并使用策略梯度来优化上述指标的
参数。该模型使用蒙特卡罗方法来抽取样本并估计每
次时序上的回报奖励。在加入强化学习后,图像描述算
法的效果有了显著的提高。
Ren等人
[47]
同样使用强化学习训练图像描述模型,
并采用了Actor-critic结构。该模型将智能体定义为图
像描述生成网络,环境状态定义为当前状态的视觉特征
和生成的描述,行动定义为可用单词,奖励定义为在同
一向量空间内图像和其真实描述对应的视觉向量和文
本向量之间的相似度。其策略、奖励和价值函数利用深
度神经网络进行近似,视觉特征使用VGG-16网络进行
编码,语义特征使用RNN网络进行编码。它通过上述
结构训练一个“策略网络”和“价值网络”相互协同来生
成图像描述。策略网络由VGG16和LSTM组成,它用
于在给定当前状态预测下一步操作。价值网络在策略
网络结构基础上添加用于回归任务的多层感知器,用于
评估给定图像特征的下一个单词和生成语句的前一个
单词。实验证明在COCO数据集上该结构能够达到当
时最优的结果。
Rennie等人
[35]
提出了一种新的序列训练方法,简称
SCST(Self-CriticalSequenceTraining),并证明SCST
算法可以极大地改善图像描述算法的性能。该方法通
过直接对CIDEr评分标准进行优化,该模型基于策略梯
(
162021,57(9)
ComputerEngineeringandApplications计算机工程与应用
度的强化学习算法建立一个基线,即通过贪婪搜索算法
选出概率前
n
大的句子作为这个基线,模型会抑制得分
在基线以下的语句,激励得分在基线以上的语句。这可
以使模型更有效地对CIDEr评分标准进行训练,并使用
策略梯度来更新模型。这样的SCST方法在MSCOCO
数据集上取得了当时的最优结果。后来的很多研究者
也在这样的一个模型进行了改进。
2.3.3小结
强化学习在图像描述算法中的应用主要表现在对
评价标准的直接优化,从源头上能显著提升生成描述的
质量,因此在已有模型上加入强化学习算法能够有效地
提升模型的性能。
2.4图卷积网络的应用
2.4.1概念
图卷积网络(GCN)是对图数据类型执行卷积的网
络,而不是CNN对像素组成的图像执行卷积。一般地,
图数据可以用
G=(V,E)
来表示,
V
代表图的顶点,
E
代表图的边,图10描绘出图卷积网络的基本框架。
03
25
14
03
03
25
25
03
14
14
25
14
03
25
14
…
图10图卷积网络结构
CNN旨在从图像中提取最重要的信息以对图像进
行分类,GCN也会在图形上通过过滤器来寻找有助于
对图形中的节点进行分类的基本顶点和边缘。在CNN
中,所有像素之间的节点连接是统一的,这足以解决图
像分类的问题。但在节点连接是动态的情况下,CNN
将达到其极限,因为CNN仅适用于具有规则结构的数
据(欧几里德域数据),而GCN能够处理非欧几里德域
数据。因此GCN在处理图像分类等任务上有着优异的
性能。
2.4.2相关工作
Yao等人
[48]
提出了一个层次解析(HIP)的结构。该
结构会将图片解析成树状结构:整张图片作为该结构
的根节点,由FasterR-CNN提取图片得到的一系列
Region-level区域作为中间节点,由另一个FasterR-CNN
来提取图片的Instance-level区域作为叶子节点。在该
层次结构上,构建具有区域级别的有向边的语义图,其
中顶点表示每个区域,而边缘表示各区域之间的关系。
利用图卷积网络丰富该语义图各区域间的视觉关系,这
能显著改善图像描述的质量。该模型使用了GCN结合
图像内两种不同的特征,使得能在解码阶段生成高质量
的描述,增强了模型的可解释性。
Chen等人
[49]
提出了一个抽象场景图(AbstractScene
Graph,ASG)的结构,见图11。应用图结构来提取图像
内主观想表达的物体、属性以及关系特征,该结构能够
更细粒度反映出用户主观想表达的描述意图,同时生成
的描述也更加多样化。ASG模块中设置三类节点:物体
节点(obj)、属性节点(attr)和关系节点(rel),这样能够
充分抽取出图像中的特征,在应用图注意力机制和更新
机制下,通过Up-DownAttention中的双层LSTM来生
成多样性的描述。上述模型能够基于给定的ASG模型
来主动地实现更好的交互性、可解释性、多样性描述。
Wang等人
[50]
使用了类似的图结构对图片中的节点进行
增强,并使用时序卷积神经网络(TCN)沿时间维度建立
多张图片之间的交互,得到集合中图像内部关系和跨图
像关系的特征,最后输入到层次化解码器中来生成一段
小故事。上述跨图片生成可解释性段落的思路也是未
来图像描述的一个研究方向。
ImageASG
图11ASG结构
2.4.3小结
人类看图描述时,会将图像抽象看作一个场景,然
后观看和推测图像内各目标之间的关系,将这样的关系
转化为图结构能够更好地保存特征的可解释性与推理
性。因此在图像描述中应用GCN能更好将图像中物体
间的特征保留,并和文本更好地匹配来生成高质量的描
述文本。
2.5小结
在现在主流的图像描述模型中,都会在编码器-解
码器的基本架构上加入注意力机制来提高模型的性能,
注意力机制能够在生成文本时突出图像中的主体,并能
够准确表述出主体间以及与其他目标之间的关系,这也
是目前注意力机制在图像描述模型广泛应用的原因。
生成对抗网络(GAN)的应用,其通过生成网络和判别
网络间的博弈来生成更加生动的、贴近原图片的自然化
描述,虽然其评价得分不高,其特点对于机器人视觉或
者盲人导航却很适用。强化学习从评价标准出发,利用
强化学习的方法对其进行优化,可以说是更加标准化的
许昊,等:深度神经网络图像描述综述
表1
方法
Attention
GAN
强化学习
GCN
优点
获取图像全局和局部间的关系;
获取图像对应区域和文本间关系;
消除对序列生成长度的限制
生成文本更加自然多样化
生成文本高度接近训练样本
更有效提取分析图像内各目标间的
2021,57(9)
不同图像描述方法性能对比
缺点
模型增加权重参数,训练时间增加;
硬注意力不可微,需结合其他方法
评价指标得分不理想
需要大量的样本进行学习
灵活性差、可扩展性差、收敛慢
使用场景
基本适用目前主流的模型
机器人领域、盲人导航
图像检索、医学CT报告生成
基本适用主流的模型
17
关系;在图像领域适用性广
一种措施。这对于图像检索、医学CT报告生成这样有
格式化需求的场景是个不错的选择。GCN能有效地抽
取图像内各个目标之间的联系,并对节点特征信息和结
构信息进行端对端的学习,其在图像描述的公开数据集
上能够生成具有交互性、可解释性、多样性描述。只是
随着网络层数的增加,模型的性能会大幅下降,并且其
可扩展性差,模型参数过于冗余,收敛慢,训练时间长。
各方法的性能对比如表1所示。
3实验分析与对比
本章首先整理了目前应用于图像描述的公开图像
数据集,分别进行介绍和对比,接着介绍了针对图像描
述领域的主流评价标准,最后在此基础上对现有不同图
像描述结构的性能进行实验对比和分析。
3.1数据集
深度学习是在大量数据集的基础上驱动实现的,公
开数据集的提供有利于各领域的发展。在图像描述领
域,目前广泛应用的数据集主要有以下三种,主要对比
如表2所示。
表2数据集对比
数据集图片量标注量训练集验证集测试集
MSCOCO3280440775
Flickr30K31783528
VisualGenome
(1)MicrosoftCOCO数据集
[51]
MSCOCO数据集被广泛运用于目标检测、目标追
踪以及图像描述。该数据集旨在通过将对象识别问题
置于更广泛的场景理解问题的上下文中,从而提高对象
识别的最新水平,并通过收集包含自然环境中常见对象
的图像来实现。该数据集使用专业机构人为地对图片
进行描述,每张图片收录5句或者15句参考描述,可以
想象这项工作消耗了大量的人力物力。MSCOCO数据
集对应的标注集,一般以json格式保存。第一种是
MSCOCOC5,每张图像包含5句参考描述。第二种是
MSCOCOC40,这个标注集对应只包含着5000张图
片,这些图片是从MSCOCO数据集中随机筛选出来的,
与C5不同的是,它的每张图片包含着40句参考描述。
一般使用C5标注集即可满足训练的要求,通常使用
MSCOCO数据集也一般默认使用MSCOCOC5。这个
数据集也是目前图像描述研究者实验的首选。该数据
集有超过33万张图片,其中20万有标注描述,包含91
类目标,328000张图像中总共有250万个带有标签的实
例,这也是目前最大的语义分割数据集。
(2)Flickr8K
[52]
和Flickr30k
[53]
数据集
从数据集的命名可以看出这两个数据集分别包含
了8000和30000(确切是31783)张图片。这些图片从
Flickr相册网站选出。该数据集每张图片具有5句人工
标注的参考描述,这两个数据集的验证集和测试集使用
的图片数量都是1000张,剩余的图片用于训练阶段。
可以看出,相比MSCOCO数据集,这两个数据集在数量
方面存在着明显的不足,但由于MSCOCO数据量太大,
在训练过程中会花费大量的时间,Flickr数据集在初探
图像描述时可以使用来进行实验来验证模型的效果。
(3)VisualGenome数据集
[54]
VisualGenome(VG)数据集是斯坦福大学李飞飞
组在2016年发布的大规模图像语义理解的数据集,初
衷是该数据集能够像ImageNet那样推动图像在高级语
义理解方面的研究。该数据集包含超过10万张图像,
其中每个图像平均具有21个对象,18个属性以及对象
之间的18对关系,在标注数据方面包含了每张图片的
目标,属性以及图像内目标间的关系。该数据集规范化
区域描述中的对象、属性、关系和名词短语,以及Word-
Net同义词集的问题答案对。它代表了图像描述、对象、
属性、关系和图片问答的最密集最大的数据集。而针对
VG数据集中的区域标注过程,该数据集的人工标注并
不是直接标注目标间的关系,不然标注员往往倾向于标
出一些高频而琐碎的关系,如wearing(woman,shoes),
而非聚焦图片中最显眼的部分。在生活中,人们在用自
然语言描述图片时,也更倾向于捕捉图片的主体部分,
所以,标注员最终被要求先给出描述,再根据描述来标
注区域(region)、边界框(boundingbox)、目标(object)、
关系(relationship)等其他内容。在最原始的VG数据集
中,数据太过庞大,其中目标的标注也过于杂乱,还有命
名模糊和boundingbox重叠的问题。在2019年Liang等
人
[55]
对这个数据集进行了改进,该数据集旨在提取图片
中真正与视觉相关的联系,同时也改善了原VG数据集
182021,57(9)
ComputerEngineeringandApplications计算机工程与应用
中谓语冗余的问题。在此使用此数据集进行特征表示
的预训练后,在图像描述模型的性能上有着普遍的提
升。该数据集提出时间相对较短,不少的研究工作开始
使用这个数据进行预训练,相信在不久的未来,VG数据
集会得到更加广泛的应用。
3.2评价指标
很显然,评价标准有权威性的是人类自己,但是要
对深度学习中海量的数据进行评价单靠人工是不现实
的,因此人们也提出了各类自动评价标准,旨在最终实
验的结果尽可能和人工评价相关接近。最主流的评价
标准有以下几种:BLEU、ROUGE、METEOR和CIDEr。
(1)BLEU
[56]
BLEU(BilingualEvaluationUnderstudy)最初是用
于评估从一种自然语言机器翻译为另一种自然语言得
到文本的质量的一种算法。这和图像描述算法评价生
成文本的要求是一致的,即对生成的待评价语句和人
工标注语句间的差异进行评分,得分输出在0~1之间。
该标准现已成为图像描述算法应用最广泛的计算标准
之一。
对于图像
I
i
,图像描述算法对于这个图像生成的
描述语句
c
i
,人工标注的五个描述语句集合
S
i
=
s
i1
,s
i2
,…,s
i5
}
∈S
,要对
c
i
进行评价。BLEU的计算公
式如下所示:
ì
ï
ï
∑∑
min
(
h
k
(
c
i
)
,max
j∈m
h
k
(
s
ij
)
)
ï
ï
CP
n
(
C,S
)
=
ik
ï
ï
∑∑
h
k
(
c
i
)
ï
ï
ik
í
ï
ï
ï
b
(
C,S
)
=
ì
í
1,l
C
>l
S
(7)
ï
e
1-l
S
/l
C
,l
ï
î
C
S ï ï N ï î BLEU N ( C,S ) =b(C,S)exp( ∑ ω n lgCP n (C,S)) n=1 其中,每一个语句用 n 元组 ω k 来表示的, n 元组 ω k 在 人工标注语句 s ij 中出现的次数记作 h k (s ij ) , n 元组 ω k 在待评价语句 c i ∈C 中出现的次数记作 h k (c i ) , l C 是待 评价语句 c i 的总长, l S 是人工标注语句的总长度。 b ( C,S ) 是一个简洁性惩罚机制,由于BLEU的评价标 准设计倾向于更短的句子,因为这样的精度分数会很 高,为了解决这个问题,该标准使用了乘以简洁性惩罚 参数来防止很短的句子获得很高的得分,具体规则在公 式(7)中可以看出,如果有多个候选的参考语句,该标准 会选择待评价语句和参考语句两者长度最近的那个参 考语句进行计算评价。BLEU得分越高,性能也就越好。 (2)ROUGE [57] ROUGE最初是用于评估自然语言处理中的自动摘 要和机器翻译的评价标准,它是由自然语言处理领域内 多名专家对指定数据给出专业的描述,然后将自动生成 的摘要或翻译与其进行比较。通过比较两者之间如 n 元语法,词序列和词对重叠的数目来评价自动摘要或者 翻译的质量。通过与专业性摘要的对比评价,能有效提 高模型的可靠性。ROUGE得分越高,性能也就越好。 (3)METEOR [58] METEOR最初也是用来评价机器翻译输出的标 准。该算法基于整个语料库的精度和召回的调和平均 值。简而言之,它对比待评价语句和参考语句之间一元 组的重叠部分,并根据语义、词干形式、精确度来匹配一 元组。相比BLEU标准,由于这个标准引入了外部知 识,因此评价时更加接近人类的判断。METEOR得分 越高,性能也就越好。 (4)CIDEr [59] 不同于上述标准,CIDEr是专门设计用于评价图像 描述算法的,它通过计算每个 n 元组的TF-IDF权重得 到待评价语句和参考语句之间的相似度,以此评价图像 描述的效果。一个 n 元组 ω k 在人工标注语句 s ij 中出 现的次数记作 h k (s ij ) ,在待评价语句中出现的次数记作 h k (c i ) , n 元组 ω k 的TF-IDF权重 g k (s ij ) 如下所示: g h æö k k ( s ij ) = ∑ ( s ij ) lg ç ç | I | ÷ ÷ (8) ω ç è I ∑ min(1, I ∑ h k (s pq )) ÷ l ∈Ω p ∈ q ø 其中, Ω 是所有 n 元组的语料库, I 是数据集中所有图 像的集合。可以看出,当有 n 元组频繁出现参考语句 中,TF给以该 n 元组更高的权重,IDF则会降低该 n 元 组在生成语句中的权重。简而言之,该方法会降低对图 像视觉内容没有帮助的高频单词的权重。 对于长度为 n 的 n 元组的 CIDEr n 评分计算公式 如下: CIDEr n ( c i ,S i ) = m 1 ∑ g n ( c i ) ∙g n ( s ij ) j g n ( c i ) g n ( s ij ) (9) 其中, g n ( c i ) ,g n ( s ij ) 分别是 g k ( c i ) 和 g k ( s ij ) 生成的向量, g n ( c i ) , g n ( s ij ) 则是对应向量的模。同样的,CIDEr 的得分越高,表明待评价语句和参考语句之间的相似度 越大,生成的语句的质量也就越好。 3.3实验结果对比与分析 本节主要进行实验的复现和对比,以BLEU、 METEOR、CIDEr三种不同的标准进行评价分析。实验 环境基于Ubuntu18.04系统,CPU为Inteli9-9900k,GPU 为NVIDIAGeForceRTX2080Ti,16GB内存,Python3.7+ Cuda10.1的Pytorch或者Tensorflow深度学习环境。 实验数据集使用MSCOCO2014的数据集和500MB 左右包含图像描述注释的json文件,在处理注释文件 时,删除了非字母字符,将剩余的字符转化为小写字母, { 许昊,等:深度神经网络图像描述综述 并将所有出现小于5次的单词替换为特殊的单词 UNK。最终在MSCOCO数据集中得到9517个单词,也 就是最终使用的语料库。 将生成语句的最大长度设为16,采用Dropout方法 防止过拟合,参数一般设为0.5。在训练损失函数阶段, 训练轮数一般设为30,其他参数如解码器输出向量维度 及解码器隐藏层维度 D ,beamsearch(集束搜索)数量 N ,批处理大小 B 在表3中列出, D 列中有两个维度 如500/1000)表示解码器中两个不同的解码器,其各自 隐藏层的维度。 表3模型参数 模型 DNB NIC [18] 51238 Karpathyetal. [20] 51237 Fangetal. [22] 51248 Lietal. [23] 512350 Up-Down [24] 1024310 Wangetal. [25] 512/1024316 NBT [28] 51238 MT umv [29] 512325 Xuetal. [32] 51238 AoANet [34] 1024310 SCST [35] 1024316 G-GAN [37] 1024364 Daietal. [42] 1024316 Fengetal. [43] 512310 HIP [48] 500/1000316 Chenetal. [49] 5123128 表4和表5中列举主流的一些图像描述模型。表4 中列举了上文所述在编码器-解码器架构的代表模型。 NIC [18] 和模型 [20] 是传统的编码器-解码器架构,一般地, 以NIC模型作为基准模型进行对比。模型 [22-24] 从编码 器端进行改进,相比NIC模型,这些模型的评价指标得 到了提升,这主要得益于更好地提取和利用图像的特 征。在模型 [22] 中是在编码中将关键字语义和图像的特 征进行结合,模型 [23-24] 利用目标检测的算法提取图像特 征,这样可以提取图像中的关键信息,能够使得生成文 本更加完整精确。模型 [25-30] 从解码器端进行改进,相比 NIC模型,这些模型的指标也得到提升。利用LSTM、 GRU、Transformer以及知识图谱等方法来解码图像特 征,将图像编码更好地“翻译”成文字描述。其中Trans- former和知识图谱的方法最终的指标提升最为显著,主 要是由于Transformer结合图像和文本各自的注意力信 息以及两者之间的联合注意力信息,知识图谱得益于引 入了外部知识体系,以此来能生成更接近人类的描述。 可以得出这样的结论:解码器端更好地提取并利用图像 的特征是会得到性能的提升,在编码器和解码器端提高 图像信息和文本信息的关联交互也能有效提高模型的 效果。 2021,57(9) 19 表4编码器-解码器架构的模型 方法模型 B-1B-2B-3B-4METEORCIDEr 基线 NIC [18] 66.646.132.924.623.785.5 Karpathyetal. [20] 62.545.032.123.019.566.0 编码器 Fangetal. [22] 69.5 —— 29.124.791.2 改进 Lietal. [23] 78.963.448.136.327.3120.8 Up-Down [24] 79.8 —— 36.327.7120.1 Wangetal. [25] 67.348.935.525.924.796.6 SemStyle [26] 65.3 —— 23.821.976.9 解码器 Anejaetal. [27] 72.555.541.029.925.197.2 改进 NBT [28] 75.5 —— 34.727.1107.2 MT umv [29] 77.1 ——— 28.6119.5 Luetal [30] 46.736.129.825.722.4161.6 表5不同方法融合模型 方法模型 B-1B-2B-3B-4METEORCIDEr 基线 NIC [18] 66.646.132.924.623.785.5 Up-Down [24] 79.8 —— 36.327.7120.1 Attention Xuetal. [32] 71.850.435.725.023.9 — Luetal. [33] 74.858.444.433.626.4104.2 AoANet [34] 81.065.851.439.429.1129.6 G-GAN [37] —— 30.520.722.479.5 GANDaietal. [42] 75.559.846.035.327.1114.2 Fengetal. [43] 58.940.327.018.617.954.9 SCST [35] ——— 35.427.1117.5 强化学习 Liuetal. [46] 75.459.144.533.225.7101.3 Renetal. [47] 71.353.940.330.425.193.7 GCN HIP [48] ——— 39.128.9130.6 Chenetal. [49] ——— 23.024.5204.2 表5中列举了添加注意力机制(Up-Down [24] 、Xuetal. [32] 、 Luetal. [33] 、AoANet [34] )、生成对抗网络(G-GAN [37] 、Daietal. [42] 、 Fengetal. [43] )、强化学习(SCST [35] 、Liuetal. [46] 、Renetal. [47] )、 图卷积神经网络方法(HIP [48] 、Chenetal. [49] )融合后模型的 性能。显而易见,加入注意力机制、强化学习后,实验 的效果都得到了显著的提高,所有的评价指标都有着 不错的提升。但是将对抗生成网络应用到模型中后,文 献[37]的指标降低了,但生成的文本其实更加自然多样 化,这是由于评价指标的限制,多样的描述文本反而得 不到很高的评分,这也是未来研究需要改进的地方。 基于图卷积神经网络的模型 [48-49] 在CIDEr的评价中得到 了所有模型中最高的得分,并有着显著的优势,可以看 出图结构在图像特征提取时能够更加细粒度提取图像 内各对象之间的关系,生成更加高质量的文本。 4目前挑战及未来发展方向 4.1主要挑战分析 近年来,在某些格式要求相对固定的领域,图像描 述算法能很好地代替人类生成满足需求的文本,比如医 学图像报告,通知文书等。目前,对于编码器-解码器架 构的改进还有着很多的挑战。 ( 202021,57(9) ComputerEngineeringandApplications计算机工程与应用 (1)模型如何正确理解图像的关键物体,并建立物 体间的联系,对最终模型的性能有着关键的影响。如何 更好地提取和利用图片中的特征,主流模型一般是使用 卷积神经网络或者目标检测算法进行特征提取,但图片 中的高层语义还是无法得到表述。基于注意力机制的 模型,能够一定程度上从图片部分区域出发去生成更符 合人类角度的描述,但还是存在一定的缺陷,当前在公 开数据集下训练的模型对未知的物体还是无法正确地 生成描述。 (2)图像描述的模型较为复杂,由于参数较多,模型 训练的步骤比较复杂,训练时间也较长,一般都以指数 量级继续训练,使得在实际应用时实时性不高。 (3)目前的模型依赖公开数据集训练,这样模型输 入一般是固定的图像特征,这样对于同一个图像的描述 内容基本没有变化,生成的文本会相对单一。 4.2未来发展方向 图像描述是一个相对新的研究任务,经过研究人员 近几年的发展,取得了巨大的进步。基于现有的研究成 果,图像描述任务仍有着很大的发展空间。 4.2.1从有监督到无监督 图像描述一般都是采用成对的图像-文本集的有监 督学习,在实际应用时,获取这样成对的图片文本是一 个耗费大量人力和时间成本的工程,这对于工业应用来 说,获取数据的成本太高了。无监督学习可以摆脱这样 的图像-文本集,大大节省了人力物力。使用公开数据 集的图片和从目标网站爬取的文本语料库进行无监督 学习,结合GAN的方法可以有效地解决问题,这样生成 的文本也更加得丰富多样化。 4.2.2从死板单一到丰富多样化 传统方法从同一张图片生成的描述基本是没有变 化的,这并不符合图像描述的初衷,因此采用无监督学 习以及ConditionalGAN、SeqGAN的应用,可以生成更 加自然灵活的语句。 4.2.3从语句到段落化 仅仅从图像中生成一句话往往很难完整地概括图 片中的完整内容,因此从图片生成段落是一个必然的趋 势,从几张有关联的图片生成一段故事也成为可能。 4.2.4从复杂到轻量化 当前的图像描述模型较为复杂,在实际应用时往往 很难落实,设计出更加轻量级的网络结构能够更方便地 部署到工程落实中,乃至到手机等小型智能设备中,将 这样的技术落实到现实生活中能够更好方便人类,自动 驾驶、导航视觉障碍者都急需这样的技术支持。 4.2.5评价标准的更新 现如今的图像描述不再满足接近训练文本,这在近 几年的发展中已经趋于成熟,自然多样化的文本描述才 是图像描述的要求归宿,因此现如今的评价标准已经无 法满足这样的需求了,新的评价标准需求迫在眉睫。 5结束语 本文从图像描述在深度神经网络中的发展应用出 发,结合模型结构和算法的演变发展综述具有代表性质 的图像描述方法,并对此进行不同方法的大致分类,在此 基础上进行梳理和对比,并在公开数据集上进行了实验 对比。实验表明,图像描述在基于编码器-解码器架构上 已逐渐趋于成熟,在编码阶段旨在提取更高层次的语义 关系来为后续解码阶段生成更为相关的描述,生成对抗 网络和图卷积神经网络的引入为生成更多样化、人性化 的描述提供了可能。为了应对当前社会环境的应用需 求,图像描述的发展还有着不少的挑战。因此,基于深度 神经网络的图像描述进一步研究还有很大的发展空间。 参考文献: [1]KRIZHEVSKYA,SUTSKEVERI,et classificationwithdeepconvolutionalneuralnetworks[J]. CommunicationsoftheACM,2017,60(6):84-90. [2]HEK,ZHANGX,RENS,siduallearning forimagerecognition[C]//ProceedingsoftheIEEECon- ferenceonComputerVisionandPatternRecognition, 2016:770-778. [3]HUANGG,LIUZ,VANDERMAATENL,y connectedconvolutionalnetworks[C]//Proceedingsofthe IEEEConferenceonComputerVisionandPatternRec- ognition,2017:4700-4708. [4]GIRSHICKR,DONAHUEJ,DARRELLT, featurehierarchiesforaccurateobjectdetectionand semanticsegmentation[C]//ProceedingsoftheIEEECon- ferenceonComputerVisionandPatternRecognition, 2014:580-587. [5]GIDARISS,detectionviaa multi-regionandsemanticsegmentation-awareCNN model[C]//ProceedingsoftheIEEEInternationalConfer- enceonComputerVision,2015:1134-1142. [6]WANGX,SHRIVASTAVAA,GUPTAA.A-fast-RCNN: hardpositivegenerationviaadversaryforobjectdetec- tion[C]//ProceedingsoftheIEEEConferenceonCom- puterVisionandPatternRecognition,2017:2606-2615. [7]ZHOUB,LAPEDRIZAA,XIAOJ,ngdeep featuresforscenerecognitionusingplacesdatabase[J]. AdvancesinNeuralInformationProcessingSystems, 2014,27:487-495. [8]CORDTSM,OMRANM,RAMOSS,yscapes datasetforsemanticurbansceneunderstanding[C]//Pro- ceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2016:3213-3223. 许昊,等:深度神经网络图像描述综述 [9]XIONGZ,YUANY,:modalityseparation networksforRGB-Dscenerecognition[J].Neurocomputing, 2020,373:81-89. [10]KULKARNIG,PREMRAJV,ORDONEZV,lk: understandingandgeneratingsimpleimagedescriptions[J]. IEEETransactionsonPatternAnalysisandMachine Intelligence,2013,35(12):2891-2903. [11]ELLIOTTD,bingimagesusing inferredvisualdependencyrepresentations[C]//Proceedings ofthe53rdAnnualMeetingoftheAssociationfor ComputationalLinguisticsandthe7thInternationalJoint ConferenceonNaturalLanguageProcessing,2015: 42-52. [12]KUZNETSOVAP,ORDONEZV,BERGA,tive generationofnaturalimagedescriptions[C]//Proceedings ofthe50thAnnualMeetingoftheAssociationfor ComputationalLinguistics,2012:359-368. [13]KUZNETSOVAP,ORDONEZV,BERGTL,etal. Treetalk:compositionandcompressionoftreesfor imagedescriptions[J].TransactionsoftheAssociation forComputationalLinguistics,2014,2(9):351-362. [14]ZAREMBAW,SUTSKEVERI,ent neuralnetworkregularization[J].arXiv:1409.2329,2014. [15]耿丽丽,牛保宁.深度神经网络模型压缩综述[J].计算机 科学与探索,2020,14(9):1441-1455. [16]李睿凡,梁昊雨,冯方向,等.全卷积神经结构的段落式图 像描述算法[J].北京邮电大学学报,2019,42(6):155-161. [17]朱欣鑫.基于深度学习的图像描述算法研究[D].北京:北 京邮电大学,2019. [18]VINYALSO,TOSHEVA,BENGIOS,dtell: aneuralimagecaptiongenerator[C]//Proceedingsofthe IEEEConferenceonComputerVisionandPatternRec- ognition,2015:3156-3164. [19]BENGIOS,VINYALSO,JAITLYN,led samplingforsequencepredictionwithrecurrentneural networks[J].AdvancesinNeuralInformationProcessing Systems,2015,28:1171-1179. [20]KARPATHYA,sual-semanticalign- mentsforgeneratingimagedescriptions[C]//Proceedings oftheIEEEConferenceonComputerVisionandPattern Recognition,2015:3128-3137. [21]SIMONYANK,epconvolutional networksforlarge-scaleimagerecognition[J].arXiv:1409. 1556,2014. [22]FANGH,GUPTAS,IANDOLAF,ptions tovisualconceptsandback[C]//Proceedingsofthe IEEEConferenceonComputerVisionandPattern Recognition,2015:1473-1482. [23]LIN,ationingwithvisual-semantic LSTM[C]//Proceedingsofthe27thInternationalJoint 2021,57(9) 21 ConferenceonArtificialIntelligence,2018:793-799. [24]ANDERSONP,HEX,BUEHLERC,-up andtop-downattentionforimagecaptioningandvisual questionanswering[C]//ProceedingsoftheIEEECon- ferenceonComputerVisionandPatternRecognition, 2018:6077-6086. [25]WANGY,LINZ,SHENX,onkey:image captioningbyskeleton-attributedecomposition[C]//Pro- ceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2017:7272-7281. [26]MATHEWSA,XIEL,le:learningtogen- eratestylisedimagecaptionsusingunalignedtext[C]// ProceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2018:8591-8600. [27]ANEJAJ,DESHPANDEA,u- tionalimagecaptioning[C]//ProceedingsoftheIEEE ConferenceonComputerVisionandPatternRecognition, 2018:5561-5570. [28]LUJ,YANGJ,BATRAD,babytalk[C]// ProceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2018:7219-7228. [29]YUJ,LIJ,YUZ,odaltransformerwith multi-viewvisualrepresentationforimagecaptioning[J]. IEEETransactionsonCircuitsandSystemsforVideo Technology,2019. [30]LUD,WHITEHEADS,HUANGL,-aware imagecaptiongeneration[J].arXiv:1804.07889,2018. [31]LINZ,FENGM,SANTOSCN,turedself- attentivesentenceembedding[J].arXiv:1703.03130,2017. [32]XUK,BAJ,KIROSR,,attendandtell: neuralimagecaptiongenerationwithvisualattention[C]// InternationalConferenceonMachineLearning,2015: 2048-2057. [33]LUJ,XIONGC,PARIKHD,gwhento look:adaptiveattentionviaavisualsentinelforimage captioning[C]//ProceedingsoftheIEEEConferenceon ComputerVisionandPatternRecognition,2017:375-383. [34]HUANGL,WANGW,CHENJ,ionon attentionforimagecaptioning[C]//Proceedingsofthe IEEEInternationalConferenceonComputerVision, 2019:4634-4643. [35]RENNIESJ,MARCHERETE,MROUEHY,- criticalsequencetrainingforimagecaptioning[C]//Pro- ceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2017:7008-7024. [36]GOODFELLOWI,POUGET-ABADIEJ,MIRZAM,etal. Generativeadversarialnets[J].AdvancesinNeuralInfor- mationProcessingSystems,2014,27:2672-2680. [37]DAIB,FIDLERS,URTASUNR,sdiverse andnaturalimagedescriptionsviaaconditionalgan[C]// 222021,57(9) ComputerEngineeringandApplications计算机工程与应用 ProceedingsoftheIEEEInternationalConferenceon ComputerVision,2017:2970-2979. [38]SHETTYR,ROHRBACHM,ANNEH,ng thesamelanguage:matchingmachinetohumancaptions byadversarialtraining[C]//ProceedingsoftheIEEE InternationalConferenceonComputerVision,2017: 4135-4144. [39]JANGE,GUS,ricalreparameterization withgumbel-softmax[J].arXiv:1611.01144,2016. [40]ZHANGH,XUT,LIH,an:texttophoto- realisticimagesynthesiswithstackedgenerativeadver- sarialnetworks[C]//ProceedingsoftheIEEEInternational ConferenceonComputerVision,2017:5907-5915. [41]SHEKHARR,PEZZELLES,KLIMOVICHY,etal. FOILit!Findonemismatchbetweenimageandlan- guagecaption[J].arXiv:1705.01359,2017. [42]DAIB,stivelearningforimagecap- tioning[C]//Proceedingsofthe31stInternationalCon- ferenceonNeuralInformationProcessingSystems, 2017:898-907. [43]FENGY,MAL,LIUW,rvisedimagecap- tioning[C]//ProceedingsoftheIEEEConferenceonCom- puterVisionandPatternRecognition,2019:4125-4134. [44]SUTTONRS,rcementlearning: anintroduction[M].[S.l.]:MITPress,2018. [45]RANZATOMA,CHOPRAS,AULIM,ce leveltrainingwithrecurrentneuralnetworks[J].arXiv: 1511.06732,2015. [46]LIUS,ZHUZ,YEN,edimagecaption- ingviapolicygradientoptimizationofspider[C]//Pro- ceedingsoftheIEEEInternationalConferenceon ComputerVision,2017:873-881. [47]RENZ,WANGX,ZHANGN,inforcement learning-basedimagecaptioningwithembeddingreward[C]// ProceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2017:290-298. [48]YAOT,PANY,LIY,chyparsingforimage captioning[C]//ProceedingsoftheIEEEInternational ConferenceonComputerVision,2019:2621-2629. [49]CHENS,JINQ,WANGP,ouwish:fine- grainedcontrolofimagecaptiongenerationwithabstract scenegraphs[C]//ProceedingsoftheIEEE/CVFConfer- enceonComputerVisionandPatternRecognition, 2020:9962-9971. [50]WANGR,WEIZ,LIP,ellingfromanimage streamusingscenegraphs[C]//ProceedingsoftheAAAI ConferenceonArtificialIntelligence,2020:9185-9192. [51]CHENX,FANGH,LINTY,oftcococap- tions:datacollectionandevaluationserver[J].arXiv:1504. 00325,2015. [52]HODOSHM,YOUNGP,g imagedescriptionasarankingtask:data,modelsand evaluationmetrics[J].JournalofArtificialIntelligence Research,2013,47:853-899. [53]YOUNGP,LAIA,HODOSHM,age descriptionstovisualdenotations:newsimilaritymetrics forsemanticinferenceovereventdescriptions[J].Trans- actionsoftheAssociationforComputationalLinguistics, 2014,2:67-78. [54]KRISHNAR,ZHUY,GROTHO,genome: connectinglanguageandvisionusingcrowdsourced denseimageannotations[J].InternationalJournalofCom- puterVision,2017,123(1):32-73. [55]LIANGY,BAIY,ZHANGW,-vg:refocusing visually-relevantrelationships[C]//ProceedingsoftheIEEE InternationalConferenceonComputerVision,2019: 10403-10412. [56]PAPINENIK,ROUKOSS,WARDT,:a methodforautomaticevaluationofmachinetranslation[C]// Proceedingsofthe40thAnnualMeetingoftheAssoci- ationforComputationalLinguistics,2002:311-318. [57]:apackageforautomaticevaluationof summaries[C]//ProceedingsofACLWorkshoponText SummarizationBranchesOut,2004:74-81. [58]BANERJEES,:anautomaticmetric forMTevaluationwithimprovedcorrelationwithhuman judgments[C]//ProceedingsoftheACLWorkshopon IntrinsicandExtrinsicEvaluationMeasuresforMachine Translationand/orSummarization,2005:65-72. [59]VEDANTAMR,LAWRENCEZC,: consensus-basedimagedescriptionevaluation[C]//Pro- ceedingsoftheIEEEConferenceonComputerVision andPatternRecognition,2015:4566-4575.