2024年10月13日发(作者:墨曼语)
1922021,57(8)
ComputerEngineeringandApplications计算机工程与应用
改进SSD的安全帽检测方法
李明山,韩清鹏,张天宇,王道累
上海电力大学计算机科学与技术学院,上海200090
摘要:施工人员佩戴安全帽是安全生产的重要一环,为保障工人生命安全,同时克服传统人工巡检费时费力的缺
点,提出了一种基于SingleShotMultiBoxDetector(SSD)改进的安全帽检测新方法。针对安全帽数据集内目标尺
度偏小,尺度分布不均衡,对SSD模型结构进行改进,添加用以特征融合的分支网络,增强浅层特征图语义,引入该网
络后SSD300的mAP-50(meanAveragePrecision)相应提升2.3个百分点,且SSD300实时检测速率仅降低1.3frame/s,
达到39.6frame/s。为使SSD模型的先验框与有效感受野匹配,对SSD默认框设置方法进行改进,引入可变参数间接
调节先验框大小,改进后的SSD300与SSD512的mAP分别达到74.6%与82.5%。安全帽数据集测试结果表明,改进
后的SSD模型对安全帽佩戴检测具有优秀的准确性与良好的实时性,基本满足实际应用需求。
关键词:深度学习;计算机视觉;SSD;安全帽检测;特征融合;小目标
文献标志码:A中图分类号:TP391.41;TU714doi:10.3778/.1002-8331.2008-0155
SafetyHelmetDetectionMethodofImprovedSSD
LIMingshan,HANQingpeng,ZHANGTianyu,WANGDaolei
CollegeofComputerScienceandTechnology,ShanghaiUniversityofElectricPower,Shanghai200090,China
Abstract:Safetyhelmetswornbyworkersisanimportantpartofsafetyconstruction,toprotectworkers’livesandover-
comethedefectofmanualinspection,anewhelmetdetectionmethodbasedonimprovedSingleShotMultiBoxDetector
(SSD)iderationofobjects’distributioninhelmetdatasetisimbalancedandobjectsaregenerally
small,abranchnetworkforfeaturefusionisaddedtoSSD,itcanenhancetheshallowfeaturemaps’semanticsandthe
mAP(meanAveragePrecision)ofSSD300isincreasedby2.3percentagepoints,andthereal-timedetectionrateisreduced
byonly1.3frame/s,reaches39.6frame/rtomakeSSD’spriorboxesmatchwiththeeffectivereceptivefield,
thedefaultboxsettingmethodisimprovedandthesizeofpriorboxesisadjustedindirectlybyintroducingavariable
ofSSD300andSSD512reach74.6%and82.5%erimentalresultsshowthatthe
improvedSSDmodelhasexcellentaccuracyandgoodreal-timeperformanceandbasicallymeetstherequirementsof
practicalapplication.
Keywords:deeplearning;computervision;SingleShotMultiBoxDetector(SSD);helmetdetection;featurefusion;
smallobject
伴随社会发展,安全问题越发受到大众关注。安全
帽佩戴能够减轻因坠落物对施工人员头部造成的损害,
保护施工人员的人身安全,佩戴安全帽是安全施工重要
一环。现阶段,安全帽主要检测方式仍是人工巡检,该
种方式费时费力,检测效率低下。近年来,随着计算机
视觉的发展,无人化智能安全帽检测方法凭借检测成本
低、效率高的优点开始受到人们重视。
刘云波等
[1]
提出通过背景差法与二值化将运动目标
分割出来,并综合多种算法对目标进行特征匹配判断是
基金项目:国家自然科学基金(61502297)。
否佩戴安全帽。然而此类传统计算机视觉方法主要依
靠人为设计的算子(SIFT
[2]
、SURF
[3]
)对特征进行提取,
并通过SVM
[4]
、AdaBoost
[5]
等算法进行分类,此类方法极
度依赖设计者的经验,且特征提取过程可能涉及多种算
法,导致流程较为繁琐。
近年来,深度学习凭借其准确性高、鲁棒性强的特
点成为目标检测研究热点方法之一。现阶段基于深度
学习的目标检测算法多是在图像上铺设不同大小的锚
框,通过回归与分类锚框实现目标检测。按照回归框的
作者简介:李明山(1996—),男,硕士研究生,主要研究方向为计算机视觉;王道累(1981—),通信作者,男,博士,副教授,主要研
究方向为计算机视觉、图像处理、CAD/CAM,E-mail:*******************.cn。
收稿日期:2020-08-11修回日期:2020-11-30文章编号:1002-8331(2021)08-0192-06
李明山,等:改进SSD的安全帽检测方法
生成方式主要分为二阶段与单阶段两大类。其中二阶
段检测器,如FasterRCNN
[6]
、MaskRCNN
[7]
通过RPN
筛选出区域提案后进一步提取特征并对回归框进行微
调与分类。此类检测器有较高的准确率但是检测速度
慢。单阶段检测器如YOLOv3
[8]
算法提取特征信息后直
接回归得到坐标编码与分类得分,该类检测器具有强实
时性,但检测精度相对较低。
大多数学者对安全帽佩戴检测提出的方法是基于
YOLOv3改进的。秦嘉等
[9]
提出结合YOLOv3与卡尔曼
滤波算法实现安全帽检测与追踪。施辉等
[10]
提出通过
特征金字塔进行特征融合并对YOLOv3用更多尺度特
征图检测。王兵等
[11]
对相似度计算方式进行改进,提出
改进GIoUYOLOv3的安全帽检测方法。乌民雨等
[12]
提出通过反卷积上采样特征图并进行特征融合提升
YOLOv3的检测准度。
Huang等
[13]
指出,在待检目标尺度相对较小时,基于
锚框的检测器的检测准度都会急剧下降。然而,安全帽
检测任务中多以小目标为主,必然出现检测效果不佳的
现象,上述方法均没有针对这一问题提出改进方案。为
解决这一问题,本文基于SingleShotMultiBoxDetector
SSD)
[14]
进行改进,提出一种新型特征金字塔,帮助模
型进行特征融合,弥补不同特征图的语义差距,增强浅
层特征图语义,改善SSD算法对小目标检测的表现,该
分支网络仅需较少的时间代价即可带来较高的准度提
升。同时本文对SSD算法的默认框设置方式进行改进,
让先验框尺度与有效感受野更为匹配,提高改进SSD模
型在安全帽检测任务中的表现。
1相关工作
1.1SSD
1.1.1SSD网络架构
SSD是一种常用单阶段目标检测算法,网络结构如
图1所示,待检测图片通过SSD自底向上的骨干卷积神
经网络与额外添加的卷积层提取特征信息,选取多阶段
特征图进行边框回归与分类,产生一系列回归框与分类
得分,随后非极大抑制算法筛选回归框输出最终预测
结果。
Boxes
InputConv4_3Fc7Conv8_2Conv9_2Conv10_2Conv11_2
图1原始SSD网络结构
2021,57(8)
193
1.1.2损失函数
SSD算法设置损失函数对模型参数进行更新与优
化。其检测头输出回归框坐标编码与类别得分,训练过
程中的总损失函数表达式如公式(1)所示,总损失由位
置损失与分类损失两部分加权求和得到,其中
x={1,0},
代表某个回归框是否匹配GroundTruth框,
N
代表最
终与GroundTruth框匹配的默认框总数。
L(x,c,l,g)=
N
1
(L
conf
(x,c))+αL
loc
(x,l,g))
(1)
计算训练损失并在多轮迭代中不断更新模型参数,
待参数收敛后最终得到较为稳定的检测模型。
1.1.3默认框选取
SSD采用单阶段检测器直接进行边框回归与分类
的机制,也采用了类似于FasterRCNN的Anchor机制
对局部提取不同高宽比的回归框。
假定
m
个尺度的特征图负责检测,SSD算法根据
公式(2)分阶段设置默认框边长,其中
S
min
与
S
max
分别
代表最底层以及最高层用以检测的特征图占原始图像
比例,通常取值0.2与0.9。
S
k
=S
min
+(S
max
-S
min
)×(k-1)/(m-1),k∈[1,m]
(2)
设置宽高比
a
r
∈{1,2,3,1/2,1/3}
,由公式(3)、公
式(4)分别计算得到多阶段特征图对应先验框宽高。
w
a
k
=S
k
a
r
(3)
h
a
k
=S
k
/a
r
(4)
给定预测框为
G
=(G
x
,G
y
,G
w
,G
h
)
,其中
G
x
与
G
y
为预测框中心点的
x
与
y
坐标,
G
w
与
G
h
为预测框的
宽与高。给定先验框为
G=(G
x
,G
y
,G
w
,G
h
)
。SSD输出
坐标编码信息为
d=(d
x
,d
y
,d
w
,d
h
)
。预测框坐标与先
验框坐标关系如公式(5)~(8)所示。
G
x
=G
x
+G
w
×d
(5)
G
x
y
=G
y
+G
h
×d
y
(6)
G
w
=G
w
×exp(d
w
)
(7)
G
h
=G
h
×exp(d
h
)
(8)
1.2FeaturePyramidNetworks
近年来,FasterRCNN等基于卷积神经网络的检测
器大幅提升了目标检测的准度。此类检测器往往使用
卷积层提取特征信息,通过最大池化层等手段多次下采
样获取不同尺度的特征图,其中特征图有尺度依次减
小、语义逐渐增强的特点,同时浅层的特征图具有更多
低水平特征。
FeaturePyramidNetworks(FPN)
[15]
对FasterRCNN
进行改进并提出了一种自顶向下的特征金字塔网络,如
图2。FPN对骨干网络中处于深层次的特征图进行逐层
上采样,并将同一尺度的特征图进行特征融合。分支网
络不同层特征图分别通过RPN获取候选框与前后景分
类置信度,使用FastRCNN
[16]
进行候选框修正与分类。
(
1942021,57(8)
ComputerEngineeringandApplications计算机工程与应用
该网络一定程度上弥补了特征图之间语义差距,使不同
尺度的特征图都有着较强的语义,提升了检测器对小目
标的检测效果。
head
head
(2)特征融合网络
特征融合网络选择与卷积网络相同的特征图输入,
采用反卷积对特征图进行逐层放大,通过元素累加的方
式对同尺度特征图进行特征融合。值得注意的是本特
征融合网络各层特征图输出通道数对应于原始SSD,与
FPN输出通道数设置方案不同。
通过本文提出的改进特征金字塔,较为浅层的特征
图也具有了较强的语义,减轻了因低水平的特征对目标
识别表达的损害,提高了SSD算法对小型、中型安全帽
目标检测的准度。
head
2.2
图2FPN结构示意图
改进先验框设置
本文针对安全帽数据集中所有目标的Ground
2改进SSD模型
改进SSD模型整体网络结构如图3所示。本章将
Truth框计算面积后开平方根取值(安全帽待检目标普
遍成正方形)并进行统计,绘制频数分布直方图,如图4,
在本数据集中,目标总计约合十二万,待检目标的
GroundTruth框尺度分布极度不均衡,且以小目标为
主,绝大部分目标分辨率集中在100×100以内,其中分
辨率小于16×16的GroundTruth框占比56%,分辨率小于
32×32的占比约89%,极少部分目标分辨率大于100×100。
基于锚框的目标检测器在对小尺度目标进行检测
时,往往检测准度会出现严重的下滑。这种现象是目标
特征压缩与先验框设置不合理共同造成的。待检目标
在经过SSD的卷积神经网络多次池化(如最大池化)后
图像特征将出现明显压缩。尤其在安全帽检测中,多为
小尺度目标,在经过压缩后仅留下较少特征能够用以检
测,这将明显影响SSD对于安全帽检测准度。同时,
Conv11_2
head
ConvModule
对改进SSD模型进行展开介绍,其中包括新型特征融合
网络(2.1节)、改进的先验框设置方法(2.2节)。
2.1改进特征金字塔网络
本文提出了一种新型特征金字塔网络,如图3。该
分支网络由自底向上的卷积网络与自顶向下的特征融
合网络两部分构成。
(1)卷积网络
卷积网络可以作为SSD骨架网络的延伸,提取特征图
给检测器进行目标检测。在本文中,选定图3中Conv9_2
的特征图作为输入,通过连续的卷积模块提取特征图并
输出给检测头进行边框回归与分类。
Conv3×3×256
ConvModule
Conv1×1×128
Conv10_2
ConvModule
Conv9_2
Conv8_2
Conv1×1×256
Fc7
Conv1×1×256
Conv1×1×256
DeConv
DeConv
Conv3×3×1024
Conv3×3×512
head
head
Conv3×3×512
head
head
改进特征金字塔
Conv4_3
head
输入图像
图3改进SSD模型
李明山,等:改进SSD的安全帽检测方法
4
4
3
0
1
/
数
频
2
1
0
50300
目标尺度/pixel
图4目标尺度频数分布直方图
Luo等
[17]
指出影响卷积神经网络单元的感受野分为理论
感受野与有效感受野。由于感受野内的像素并不能均
一地影响卷积神经单元的信号值,即中心区域处于有效
感受野的像素将产生更大的影响,且有效感受野将小于
理论感受野。原始SSD的先验框设置对于安全帽检测
任务的有效感受野明显偏大,导致检测效果明显下降。
为解决以上问题,本文通过改进SSD默认框边长
设置,引入可调节参数
n
来间接调整先验框取值,如公
式(9)所示:
ì
í
S
min
=(n×s)
2
/A
î
SS-S
,k∈[1,m]
(9)
k
=
min
+(S
maxmin
)×(k-1)/(m-1)
其中
A
为最底层特征图面积。取
n
倍于最底层特征图
的步长
s
作为最小默认框边长(本模型取
n=2)
,此时
默认框面积占原图面积比值为对应
S
min
,并取经验数
值
S
max
=0.8
,带入默认框边长计算公式即可求得默认
框取值。
3实验与结果分析
3.1数据集制作
本实验所选取的数据集由网络爬虫、监控视频以及
道路施工现场照片三部分组成,如图5所示,包含两类
物体:佩戴安全帽(hat)、未佩戴安全帽(person)。共计
7226张图片,按照7∶2∶1的比例进行划分,训练集5081
张图片,测试集与校验集分别有1445700张图片,并按
照VOC数据集格式进行存储。本数据集中目标尺度分
布极度不均衡,对目标检测提出了较大挑战,然而,本数
据集更符合实际施工应用场景。
图5数据集样例
3.2网络训练
Fu等
[18]
已经表明,选用更先进的骨干网络能够有效
2021,57(8)
195
地提升SSD检测器的表现,为了更公平地比较原算法与
改进后的算法在安全帽检测任务上的性能,本实验中改
进SSD仍旧采用VGG-16
[19]
作为骨干网络,并通过加载
预训练权重加快收敛。实验采用随机梯度下降的优化
方式,学习率设置为0.0001,动量为0.9,权重衰减0.0005,
样本数16,并设置等间距调整学习率。网络采取固定学
习率训练80轮,之后学习率降低至原来的十分之一进
行微调,本实验采用与原始SSD相同的图像增强手段,
如随机裁剪、水平镜像等方法。
3.3对比实验结果与分析
本实验采用目前较为常用的几种目标检测算法进
行对比:FasterRCNN、YOLOv3。本实验中YOLOv3的
训练样本数为16,其余采取文献[8]相同的设置进行训
练。FasterRCNN的训练采用端到端的训练方案,共计
训练50轮,其余设置与文献[6]相同。
实验结果如表1所示。本文所提出的改进SSD安
全帽检测方法,对于各类目标的AP-50(AveragePreci-
sion)分别达到了78.21%与71.0%,mAP(meanAverage
Precision)达到74.6%,远高于FasterRCNN的mAP
63.0%与YOLOv3的mAP58.4%。改进SSD512的mAP
高达82.5%。综合实验结果看,改进后的算法对安全
帽检测检测准确性方面表现优秀,基本满足实际场景
需求。
表1AP-50及mAP-50对比
%
网络模型
AP-50
hatperson
mAP-50
FasterRCNN81.9044.263.0
YOLOv332072.7044.158.4
SSD30074.0036.355.2
SSD51278.9067.473.2
改进SSD300
78.2171.074.6
改进SSD512
86.5078.582.5
为验证本文所提方法的实时性,将样本数设置为1,
让各模型分别对测试集共计1445张图片进行检测,计
算各模型检测速率并进行对比,实验结果如表2,实验显
卡为TeslaV100-SXM2。其中,YOLOv3的检测速率最
快,达到了59frame/s,本文所提出的改进SSD安全帽检
测模型在检测准度大幅提高的情况下,检测速度仅降低
1.3frame/s,平均检测速率达到39.6frame/s,在优秀准度
的基础上兼具良好实时性。
表2检测速率对比
网络模型
检测速率/(frame⋅s
-1
)
FasterRCNN14.0
YOLOv332059.0
SSD30040.9
改进SSD300
39.6
1962021,57(8)
ComputerEngineeringandApplications计算机工程与应用
3.4消融实验结果与分析
本文设置消融实验以探究各改进对模型的影响,
3.4.1小节将介绍改进特征金字塔的影响与分析,3.4.2
小节将介绍改进先验框设置的影响与分析。
3.4.1特征金字塔消融实验
改进FPN对原始SSD网络结构有着良好兼容性,
为探究其对SSD检测准度产生的影响,本文分别设置两
组模型对照,一组为原始SSD,另一组为添加FPN后的
SSD,其余设置均与文献[14]相同。实验结果如表3,添
加改进后SSD模型对于各类目标AP分别达到了76.5%
与38.5%,mAP达到了57.5%,较原始SSD的mAP有2.3
个百分点的提升。
表3特征金字塔消融实验结果
%
网络模型
AP-50
hatperson
mAP-50
SSD74.036.355.2
SSD-FPN76.538.557.5
实验证明,改进后SSD通过特征融合有效弥补了不
同特征图之间的语义差距,增强了浅层特征图的语义,
有效提升了SSD模型对安全帽检测的准度。
3.4.2先验框消融实验
本文所提出的改进公式(9)通过可调节参数
n
控制
默认框取值,实现调节先验框大小。本小节将设置不同
取值的
n
,间接探究先验框大小对改进SSD安全帽检测
模型准度的影响。
改进SSD安全帽检测模型首先固定经验值
S
max
=
0.8,之后设置
n∈{1,2,4,6}
,其余训练参数相同,进行训
练并测试,实验结果如表4。
表4不同
n
取值下改进SSD检测结果
n
AP-50/%
hatperson
mAP-50/%
176.7059.5868.1
278.2171.0074.6
478.6063.4071.0
679.6048.0063.8
n=6
时,先验框大小较原始SSD降低,mAP有较大
提升,但仍明显与有效感受野不匹配。在
n
取值由6开
始降低,先验框进一步减小,mAP由63.8%逐渐增加至
74.6%,其中尤其以未佩戴安全帽目标检测的AP值提升
最为明显,AP值由48%提升至71%。检测器准度的提
升说明随着降低
n
取值,先验框尺度逐步减小,与有效
感受野匹配度逐步增加,更利于安全帽检测。
n
由2降低至1时,检测器的mAP开始明显降低,此
现象表明并不能因为数据集以小目标为主而无限制地
降低先验框取值。对于如安全帽此类目标进行检测时,
先验框取值应适当减小,但仍然需要匹配有效感受野,
否则检测器性能会出现不同程度衰退。
3.5目标检测结果
对改进前后检测结果对比,效果如图6所示,其中
图(a)、(c)为SSD300检测结果图,图(b)、(d)为改进
SSD在相同场景下得到的检测结果图。观察对比可以
看出,在安全帽数据集中,改进SSD模型对各类目标检
测准度相较于SSD300都有较大提升,漏检数目明显
降低。
(a)SSD检测图1(b)改进SSD检测图1
(c)SSD检测图2(d)改进SSD检测图2
图6SSD改进前后检测结果对比
4结束语
针对安全帽数据集以小目标为主的特点,对SSD模
型进行改进,引入分支网络进行特征融合,使浅层特征
图语义增强,SSD300对安全帽检测的mAP提升2.3个
百分点。同时改进SSD默认框设置方法,使先验框与有
效感受野更为匹配,改进SSD安全帽检测模型检测准度
进一步提升,SSD300与SSD512的mAP分别达到74.6%
与82.5%,同时SSD300检测速率达到39.6frame/s,本模
型具有优秀检测准度并兼具良好实时性,基本接近实际
应用需求。下一步研究主要关注如何进一步提高检测
器检测速度,并加强检测器在不同环境条件下检测的鲁
棒性。
参考文献:
[1]刘云波,黄华.施工现场安全帽佩戴情况监控技术研究[J].
电子科技,2015(4):75-78.
[2]ctiveimagefeaturesfromscale-invariant
keypoints[J].InternationalJournalofComputerVision,2004,
60(2):91-110.
[3]:speededuprobustfeatures[J].Computer
Vision&ImageUnderstanding,2006,110(3):404-417.
李明山,等:改进SSD的安全帽检测方法
[4]ialonsupportvectormachines
forpatternrecognition[J].DataMiningandKnowledge
Discovery,1998,2(2):121-167.
[5]FREUNDY,ion-theoreticgenera-
lizationofon-linelearningandanapplicationtoboost-
ing[J].JournalofComputerandSystemSciences,1997,
55(1):119-139.
[6]RENS,HEK,GIRSHICKR,R-CNN:towards
real-timeobjectdetectionwithregionproposalnetworks[J].
IEEETransactionsonPatternAnalysis&MachineIntelli-
gence,2017,39(6):1137-1149.
[7]HEK,GKIOXARIG,DOLLÁRP,-CNN[J].
IEEETransactionsonPatternAnalysis&MachineIntel-
ligence,2020,42(2):386-397.
[8]REDMONJ,3:anincrementalim-
provement[J].arXiv:1804.02767,2018.
[9]秦嘉,曹雪虹,焦良葆.基于深度学习的安全帽佩戴检测与
跟踪[J].计算机与现代化,2020(6):1-6.
[10]施辉,陈先桥,杨英.改进YOLOv3的安全帽佩戴检测方
法[J].计算机工程与应用,2019,55(11):213-220.
[11]王兵,李文璟,唐欢.改进YOLOv3算法及其在安全帽检
测中的应用[J].计算机工程与应用,2020,56(9):33-40.
[12]乌民雨,陈晓辉.一种基于改进YOLOv3的安全帽检测
方法[J].信息通信,2020(6):12-14.
2021,57(8)
197
[13]HUANGJ,RATHODV,SUNC,/accuracy
trade-offsformodernconvolutionalobjectdetectors[C]//
IEEEConferenceonComputerVisionandPatternRec-
ognition(CVPR),2016.
[14]LIUW,ANGUELOVD,ERHAND,:single
shotmultiboxdetector[C]//ProceedingsoftheIEEEEu-
dam,The
Netherlands:IEEE,2016:21-37.
[15]LINTY,DOLLARP,GIRSHICKRB,e
pyramidnetworksforobjectdetection[C]//IEEEConfer-
enceonComputerVisionandPatternRecognition
(CVPR),2017:936-944.
[16]-CNN[C]//ProceedingsoftheIEEE
InternationalConferenceonComputerVision,2015:
1440-1448.
[17]LUOW,LIY,URTASUNR,tandingthe
effectivereceptivefieldindeepconvolutionalneuralnet-
works[C]//NeuralInformationProcessingSystems,2016:
4898-4906.
[18]FUCY,LIUW,RANGAA,:deconvolutional
singleshotdetector[J].arXiv:1701.06659,2017.
[19]SIMONYANK,eepconvolutional
networksforlarge-scaleimagerecognition[C]//Proceed-
ingsofICLR,2015.
2024年10月13日发(作者:墨曼语)
1922021,57(8)
ComputerEngineeringandApplications计算机工程与应用
改进SSD的安全帽检测方法
李明山,韩清鹏,张天宇,王道累
上海电力大学计算机科学与技术学院,上海200090
摘要:施工人员佩戴安全帽是安全生产的重要一环,为保障工人生命安全,同时克服传统人工巡检费时费力的缺
点,提出了一种基于SingleShotMultiBoxDetector(SSD)改进的安全帽检测新方法。针对安全帽数据集内目标尺
度偏小,尺度分布不均衡,对SSD模型结构进行改进,添加用以特征融合的分支网络,增强浅层特征图语义,引入该网
络后SSD300的mAP-50(meanAveragePrecision)相应提升2.3个百分点,且SSD300实时检测速率仅降低1.3frame/s,
达到39.6frame/s。为使SSD模型的先验框与有效感受野匹配,对SSD默认框设置方法进行改进,引入可变参数间接
调节先验框大小,改进后的SSD300与SSD512的mAP分别达到74.6%与82.5%。安全帽数据集测试结果表明,改进
后的SSD模型对安全帽佩戴检测具有优秀的准确性与良好的实时性,基本满足实际应用需求。
关键词:深度学习;计算机视觉;SSD;安全帽检测;特征融合;小目标
文献标志码:A中图分类号:TP391.41;TU714doi:10.3778/.1002-8331.2008-0155
SafetyHelmetDetectionMethodofImprovedSSD
LIMingshan,HANQingpeng,ZHANGTianyu,WANGDaolei
CollegeofComputerScienceandTechnology,ShanghaiUniversityofElectricPower,Shanghai200090,China
Abstract:Safetyhelmetswornbyworkersisanimportantpartofsafetyconstruction,toprotectworkers’livesandover-
comethedefectofmanualinspection,anewhelmetdetectionmethodbasedonimprovedSingleShotMultiBoxDetector
(SSD)iderationofobjects’distributioninhelmetdatasetisimbalancedandobjectsaregenerally
small,abranchnetworkforfeaturefusionisaddedtoSSD,itcanenhancetheshallowfeaturemaps’semanticsandthe
mAP(meanAveragePrecision)ofSSD300isincreasedby2.3percentagepoints,andthereal-timedetectionrateisreduced
byonly1.3frame/s,reaches39.6frame/rtomakeSSD’spriorboxesmatchwiththeeffectivereceptivefield,
thedefaultboxsettingmethodisimprovedandthesizeofpriorboxesisadjustedindirectlybyintroducingavariable
ofSSD300andSSD512reach74.6%and82.5%erimentalresultsshowthatthe
improvedSSDmodelhasexcellentaccuracyandgoodreal-timeperformanceandbasicallymeetstherequirementsof
practicalapplication.
Keywords:deeplearning;computervision;SingleShotMultiBoxDetector(SSD);helmetdetection;featurefusion;
smallobject
伴随社会发展,安全问题越发受到大众关注。安全
帽佩戴能够减轻因坠落物对施工人员头部造成的损害,
保护施工人员的人身安全,佩戴安全帽是安全施工重要
一环。现阶段,安全帽主要检测方式仍是人工巡检,该
种方式费时费力,检测效率低下。近年来,随着计算机
视觉的发展,无人化智能安全帽检测方法凭借检测成本
低、效率高的优点开始受到人们重视。
刘云波等
[1]
提出通过背景差法与二值化将运动目标
分割出来,并综合多种算法对目标进行特征匹配判断是
基金项目:国家自然科学基金(61502297)。
否佩戴安全帽。然而此类传统计算机视觉方法主要依
靠人为设计的算子(SIFT
[2]
、SURF
[3]
)对特征进行提取,
并通过SVM
[4]
、AdaBoost
[5]
等算法进行分类,此类方法极
度依赖设计者的经验,且特征提取过程可能涉及多种算
法,导致流程较为繁琐。
近年来,深度学习凭借其准确性高、鲁棒性强的特
点成为目标检测研究热点方法之一。现阶段基于深度
学习的目标检测算法多是在图像上铺设不同大小的锚
框,通过回归与分类锚框实现目标检测。按照回归框的
作者简介:李明山(1996—),男,硕士研究生,主要研究方向为计算机视觉;王道累(1981—),通信作者,男,博士,副教授,主要研
究方向为计算机视觉、图像处理、CAD/CAM,E-mail:*******************.cn。
收稿日期:2020-08-11修回日期:2020-11-30文章编号:1002-8331(2021)08-0192-06
李明山,等:改进SSD的安全帽检测方法
生成方式主要分为二阶段与单阶段两大类。其中二阶
段检测器,如FasterRCNN
[6]
、MaskRCNN
[7]
通过RPN
筛选出区域提案后进一步提取特征并对回归框进行微
调与分类。此类检测器有较高的准确率但是检测速度
慢。单阶段检测器如YOLOv3
[8]
算法提取特征信息后直
接回归得到坐标编码与分类得分,该类检测器具有强实
时性,但检测精度相对较低。
大多数学者对安全帽佩戴检测提出的方法是基于
YOLOv3改进的。秦嘉等
[9]
提出结合YOLOv3与卡尔曼
滤波算法实现安全帽检测与追踪。施辉等
[10]
提出通过
特征金字塔进行特征融合并对YOLOv3用更多尺度特
征图检测。王兵等
[11]
对相似度计算方式进行改进,提出
改进GIoUYOLOv3的安全帽检测方法。乌民雨等
[12]
提出通过反卷积上采样特征图并进行特征融合提升
YOLOv3的检测准度。
Huang等
[13]
指出,在待检目标尺度相对较小时,基于
锚框的检测器的检测准度都会急剧下降。然而,安全帽
检测任务中多以小目标为主,必然出现检测效果不佳的
现象,上述方法均没有针对这一问题提出改进方案。为
解决这一问题,本文基于SingleShotMultiBoxDetector
SSD)
[14]
进行改进,提出一种新型特征金字塔,帮助模
型进行特征融合,弥补不同特征图的语义差距,增强浅
层特征图语义,改善SSD算法对小目标检测的表现,该
分支网络仅需较少的时间代价即可带来较高的准度提
升。同时本文对SSD算法的默认框设置方式进行改进,
让先验框尺度与有效感受野更为匹配,提高改进SSD模
型在安全帽检测任务中的表现。
1相关工作
1.1SSD
1.1.1SSD网络架构
SSD是一种常用单阶段目标检测算法,网络结构如
图1所示,待检测图片通过SSD自底向上的骨干卷积神
经网络与额外添加的卷积层提取特征信息,选取多阶段
特征图进行边框回归与分类,产生一系列回归框与分类
得分,随后非极大抑制算法筛选回归框输出最终预测
结果。
Boxes
InputConv4_3Fc7Conv8_2Conv9_2Conv10_2Conv11_2
图1原始SSD网络结构
2021,57(8)
193
1.1.2损失函数
SSD算法设置损失函数对模型参数进行更新与优
化。其检测头输出回归框坐标编码与类别得分,训练过
程中的总损失函数表达式如公式(1)所示,总损失由位
置损失与分类损失两部分加权求和得到,其中
x={1,0},
代表某个回归框是否匹配GroundTruth框,
N
代表最
终与GroundTruth框匹配的默认框总数。
L(x,c,l,g)=
N
1
(L
conf
(x,c))+αL
loc
(x,l,g))
(1)
计算训练损失并在多轮迭代中不断更新模型参数,
待参数收敛后最终得到较为稳定的检测模型。
1.1.3默认框选取
SSD采用单阶段检测器直接进行边框回归与分类
的机制,也采用了类似于FasterRCNN的Anchor机制
对局部提取不同高宽比的回归框。
假定
m
个尺度的特征图负责检测,SSD算法根据
公式(2)分阶段设置默认框边长,其中
S
min
与
S
max
分别
代表最底层以及最高层用以检测的特征图占原始图像
比例,通常取值0.2与0.9。
S
k
=S
min
+(S
max
-S
min
)×(k-1)/(m-1),k∈[1,m]
(2)
设置宽高比
a
r
∈{1,2,3,1/2,1/3}
,由公式(3)、公
式(4)分别计算得到多阶段特征图对应先验框宽高。
w
a
k
=S
k
a
r
(3)
h
a
k
=S
k
/a
r
(4)
给定预测框为
G
=(G
x
,G
y
,G
w
,G
h
)
,其中
G
x
与
G
y
为预测框中心点的
x
与
y
坐标,
G
w
与
G
h
为预测框的
宽与高。给定先验框为
G=(G
x
,G
y
,G
w
,G
h
)
。SSD输出
坐标编码信息为
d=(d
x
,d
y
,d
w
,d
h
)
。预测框坐标与先
验框坐标关系如公式(5)~(8)所示。
G
x
=G
x
+G
w
×d
(5)
G
x
y
=G
y
+G
h
×d
y
(6)
G
w
=G
w
×exp(d
w
)
(7)
G
h
=G
h
×exp(d
h
)
(8)
1.2FeaturePyramidNetworks
近年来,FasterRCNN等基于卷积神经网络的检测
器大幅提升了目标检测的准度。此类检测器往往使用
卷积层提取特征信息,通过最大池化层等手段多次下采
样获取不同尺度的特征图,其中特征图有尺度依次减
小、语义逐渐增强的特点,同时浅层的特征图具有更多
低水平特征。
FeaturePyramidNetworks(FPN)
[15]
对FasterRCNN
进行改进并提出了一种自顶向下的特征金字塔网络,如
图2。FPN对骨干网络中处于深层次的特征图进行逐层
上采样,并将同一尺度的特征图进行特征融合。分支网
络不同层特征图分别通过RPN获取候选框与前后景分
类置信度,使用FastRCNN
[16]
进行候选框修正与分类。
(
1942021,57(8)
ComputerEngineeringandApplications计算机工程与应用
该网络一定程度上弥补了特征图之间语义差距,使不同
尺度的特征图都有着较强的语义,提升了检测器对小目
标的检测效果。
head
head
(2)特征融合网络
特征融合网络选择与卷积网络相同的特征图输入,
采用反卷积对特征图进行逐层放大,通过元素累加的方
式对同尺度特征图进行特征融合。值得注意的是本特
征融合网络各层特征图输出通道数对应于原始SSD,与
FPN输出通道数设置方案不同。
通过本文提出的改进特征金字塔,较为浅层的特征
图也具有了较强的语义,减轻了因低水平的特征对目标
识别表达的损害,提高了SSD算法对小型、中型安全帽
目标检测的准度。
head
2.2
图2FPN结构示意图
改进先验框设置
本文针对安全帽数据集中所有目标的Ground
2改进SSD模型
改进SSD模型整体网络结构如图3所示。本章将
Truth框计算面积后开平方根取值(安全帽待检目标普
遍成正方形)并进行统计,绘制频数分布直方图,如图4,
在本数据集中,目标总计约合十二万,待检目标的
GroundTruth框尺度分布极度不均衡,且以小目标为
主,绝大部分目标分辨率集中在100×100以内,其中分
辨率小于16×16的GroundTruth框占比56%,分辨率小于
32×32的占比约89%,极少部分目标分辨率大于100×100。
基于锚框的目标检测器在对小尺度目标进行检测
时,往往检测准度会出现严重的下滑。这种现象是目标
特征压缩与先验框设置不合理共同造成的。待检目标
在经过SSD的卷积神经网络多次池化(如最大池化)后
图像特征将出现明显压缩。尤其在安全帽检测中,多为
小尺度目标,在经过压缩后仅留下较少特征能够用以检
测,这将明显影响SSD对于安全帽检测准度。同时,
Conv11_2
head
ConvModule
对改进SSD模型进行展开介绍,其中包括新型特征融合
网络(2.1节)、改进的先验框设置方法(2.2节)。
2.1改进特征金字塔网络
本文提出了一种新型特征金字塔网络,如图3。该
分支网络由自底向上的卷积网络与自顶向下的特征融
合网络两部分构成。
(1)卷积网络
卷积网络可以作为SSD骨架网络的延伸,提取特征图
给检测器进行目标检测。在本文中,选定图3中Conv9_2
的特征图作为输入,通过连续的卷积模块提取特征图并
输出给检测头进行边框回归与分类。
Conv3×3×256
ConvModule
Conv1×1×128
Conv10_2
ConvModule
Conv9_2
Conv8_2
Conv1×1×256
Fc7
Conv1×1×256
Conv1×1×256
DeConv
DeConv
Conv3×3×1024
Conv3×3×512
head
head
Conv3×3×512
head
head
改进特征金字塔
Conv4_3
head
输入图像
图3改进SSD模型
李明山,等:改进SSD的安全帽检测方法
4
4
3
0
1
/
数
频
2
1
0
50300
目标尺度/pixel
图4目标尺度频数分布直方图
Luo等
[17]
指出影响卷积神经网络单元的感受野分为理论
感受野与有效感受野。由于感受野内的像素并不能均
一地影响卷积神经单元的信号值,即中心区域处于有效
感受野的像素将产生更大的影响,且有效感受野将小于
理论感受野。原始SSD的先验框设置对于安全帽检测
任务的有效感受野明显偏大,导致检测效果明显下降。
为解决以上问题,本文通过改进SSD默认框边长
设置,引入可调节参数
n
来间接调整先验框取值,如公
式(9)所示:
ì
í
S
min
=(n×s)
2
/A
î
SS-S
,k∈[1,m]
(9)
k
=
min
+(S
maxmin
)×(k-1)/(m-1)
其中
A
为最底层特征图面积。取
n
倍于最底层特征图
的步长
s
作为最小默认框边长(本模型取
n=2)
,此时
默认框面积占原图面积比值为对应
S
min
,并取经验数
值
S
max
=0.8
,带入默认框边长计算公式即可求得默认
框取值。
3实验与结果分析
3.1数据集制作
本实验所选取的数据集由网络爬虫、监控视频以及
道路施工现场照片三部分组成,如图5所示,包含两类
物体:佩戴安全帽(hat)、未佩戴安全帽(person)。共计
7226张图片,按照7∶2∶1的比例进行划分,训练集5081
张图片,测试集与校验集分别有1445700张图片,并按
照VOC数据集格式进行存储。本数据集中目标尺度分
布极度不均衡,对目标检测提出了较大挑战,然而,本数
据集更符合实际施工应用场景。
图5数据集样例
3.2网络训练
Fu等
[18]
已经表明,选用更先进的骨干网络能够有效
2021,57(8)
195
地提升SSD检测器的表现,为了更公平地比较原算法与
改进后的算法在安全帽检测任务上的性能,本实验中改
进SSD仍旧采用VGG-16
[19]
作为骨干网络,并通过加载
预训练权重加快收敛。实验采用随机梯度下降的优化
方式,学习率设置为0.0001,动量为0.9,权重衰减0.0005,
样本数16,并设置等间距调整学习率。网络采取固定学
习率训练80轮,之后学习率降低至原来的十分之一进
行微调,本实验采用与原始SSD相同的图像增强手段,
如随机裁剪、水平镜像等方法。
3.3对比实验结果与分析
本实验采用目前较为常用的几种目标检测算法进
行对比:FasterRCNN、YOLOv3。本实验中YOLOv3的
训练样本数为16,其余采取文献[8]相同的设置进行训
练。FasterRCNN的训练采用端到端的训练方案,共计
训练50轮,其余设置与文献[6]相同。
实验结果如表1所示。本文所提出的改进SSD安
全帽检测方法,对于各类目标的AP-50(AveragePreci-
sion)分别达到了78.21%与71.0%,mAP(meanAverage
Precision)达到74.6%,远高于FasterRCNN的mAP
63.0%与YOLOv3的mAP58.4%。改进SSD512的mAP
高达82.5%。综合实验结果看,改进后的算法对安全
帽检测检测准确性方面表现优秀,基本满足实际场景
需求。
表1AP-50及mAP-50对比
%
网络模型
AP-50
hatperson
mAP-50
FasterRCNN81.9044.263.0
YOLOv332072.7044.158.4
SSD30074.0036.355.2
SSD51278.9067.473.2
改进SSD300
78.2171.074.6
改进SSD512
86.5078.582.5
为验证本文所提方法的实时性,将样本数设置为1,
让各模型分别对测试集共计1445张图片进行检测,计
算各模型检测速率并进行对比,实验结果如表2,实验显
卡为TeslaV100-SXM2。其中,YOLOv3的检测速率最
快,达到了59frame/s,本文所提出的改进SSD安全帽检
测模型在检测准度大幅提高的情况下,检测速度仅降低
1.3frame/s,平均检测速率达到39.6frame/s,在优秀准度
的基础上兼具良好实时性。
表2检测速率对比
网络模型
检测速率/(frame⋅s
-1
)
FasterRCNN14.0
YOLOv332059.0
SSD30040.9
改进SSD300
39.6
1962021,57(8)
ComputerEngineeringandApplications计算机工程与应用
3.4消融实验结果与分析
本文设置消融实验以探究各改进对模型的影响,
3.4.1小节将介绍改进特征金字塔的影响与分析,3.4.2
小节将介绍改进先验框设置的影响与分析。
3.4.1特征金字塔消融实验
改进FPN对原始SSD网络结构有着良好兼容性,
为探究其对SSD检测准度产生的影响,本文分别设置两
组模型对照,一组为原始SSD,另一组为添加FPN后的
SSD,其余设置均与文献[14]相同。实验结果如表3,添
加改进后SSD模型对于各类目标AP分别达到了76.5%
与38.5%,mAP达到了57.5%,较原始SSD的mAP有2.3
个百分点的提升。
表3特征金字塔消融实验结果
%
网络模型
AP-50
hatperson
mAP-50
SSD74.036.355.2
SSD-FPN76.538.557.5
实验证明,改进后SSD通过特征融合有效弥补了不
同特征图之间的语义差距,增强了浅层特征图的语义,
有效提升了SSD模型对安全帽检测的准度。
3.4.2先验框消融实验
本文所提出的改进公式(9)通过可调节参数
n
控制
默认框取值,实现调节先验框大小。本小节将设置不同
取值的
n
,间接探究先验框大小对改进SSD安全帽检测
模型准度的影响。
改进SSD安全帽检测模型首先固定经验值
S
max
=
0.8,之后设置
n∈{1,2,4,6}
,其余训练参数相同,进行训
练并测试,实验结果如表4。
表4不同
n
取值下改进SSD检测结果
n
AP-50/%
hatperson
mAP-50/%
176.7059.5868.1
278.2171.0074.6
478.6063.4071.0
679.6048.0063.8
n=6
时,先验框大小较原始SSD降低,mAP有较大
提升,但仍明显与有效感受野不匹配。在
n
取值由6开
始降低,先验框进一步减小,mAP由63.8%逐渐增加至
74.6%,其中尤其以未佩戴安全帽目标检测的AP值提升
最为明显,AP值由48%提升至71%。检测器准度的提
升说明随着降低
n
取值,先验框尺度逐步减小,与有效
感受野匹配度逐步增加,更利于安全帽检测。
n
由2降低至1时,检测器的mAP开始明显降低,此
现象表明并不能因为数据集以小目标为主而无限制地
降低先验框取值。对于如安全帽此类目标进行检测时,
先验框取值应适当减小,但仍然需要匹配有效感受野,
否则检测器性能会出现不同程度衰退。
3.5目标检测结果
对改进前后检测结果对比,效果如图6所示,其中
图(a)、(c)为SSD300检测结果图,图(b)、(d)为改进
SSD在相同场景下得到的检测结果图。观察对比可以
看出,在安全帽数据集中,改进SSD模型对各类目标检
测准度相较于SSD300都有较大提升,漏检数目明显
降低。
(a)SSD检测图1(b)改进SSD检测图1
(c)SSD检测图2(d)改进SSD检测图2
图6SSD改进前后检测结果对比
4结束语
针对安全帽数据集以小目标为主的特点,对SSD模
型进行改进,引入分支网络进行特征融合,使浅层特征
图语义增强,SSD300对安全帽检测的mAP提升2.3个
百分点。同时改进SSD默认框设置方法,使先验框与有
效感受野更为匹配,改进SSD安全帽检测模型检测准度
进一步提升,SSD300与SSD512的mAP分别达到74.6%
与82.5%,同时SSD300检测速率达到39.6frame/s,本模
型具有优秀检测准度并兼具良好实时性,基本接近实际
应用需求。下一步研究主要关注如何进一步提高检测
器检测速度,并加强检测器在不同环境条件下检测的鲁
棒性。
参考文献:
[1]刘云波,黄华.施工现场安全帽佩戴情况监控技术研究[J].
电子科技,2015(4):75-78.
[2]ctiveimagefeaturesfromscale-invariant
keypoints[J].InternationalJournalofComputerVision,2004,
60(2):91-110.
[3]:speededuprobustfeatures[J].Computer
Vision&ImageUnderstanding,2006,110(3):404-417.
李明山,等:改进SSD的安全帽检测方法
[4]ialonsupportvectormachines
forpatternrecognition[J].DataMiningandKnowledge
Discovery,1998,2(2):121-167.
[5]FREUNDY,ion-theoreticgenera-
lizationofon-linelearningandanapplicationtoboost-
ing[J].JournalofComputerandSystemSciences,1997,
55(1):119-139.
[6]RENS,HEK,GIRSHICKR,R-CNN:towards
real-timeobjectdetectionwithregionproposalnetworks[J].
IEEETransactionsonPatternAnalysis&MachineIntelli-
gence,2017,39(6):1137-1149.
[7]HEK,GKIOXARIG,DOLLÁRP,-CNN[J].
IEEETransactionsonPatternAnalysis&MachineIntel-
ligence,2020,42(2):386-397.
[8]REDMONJ,3:anincrementalim-
provement[J].arXiv:1804.02767,2018.
[9]秦嘉,曹雪虹,焦良葆.基于深度学习的安全帽佩戴检测与
跟踪[J].计算机与现代化,2020(6):1-6.
[10]施辉,陈先桥,杨英.改进YOLOv3的安全帽佩戴检测方
法[J].计算机工程与应用,2019,55(11):213-220.
[11]王兵,李文璟,唐欢.改进YOLOv3算法及其在安全帽检
测中的应用[J].计算机工程与应用,2020,56(9):33-40.
[12]乌民雨,陈晓辉.一种基于改进YOLOv3的安全帽检测
方法[J].信息通信,2020(6):12-14.
2021,57(8)
197
[13]HUANGJ,RATHODV,SUNC,/accuracy
trade-offsformodernconvolutionalobjectdetectors[C]//
IEEEConferenceonComputerVisionandPatternRec-
ognition(CVPR),2016.
[14]LIUW,ANGUELOVD,ERHAND,:single
shotmultiboxdetector[C]//ProceedingsoftheIEEEEu-
dam,The
Netherlands:IEEE,2016:21-37.
[15]LINTY,DOLLARP,GIRSHICKRB,e
pyramidnetworksforobjectdetection[C]//IEEEConfer-
enceonComputerVisionandPatternRecognition
(CVPR),2017:936-944.
[16]-CNN[C]//ProceedingsoftheIEEE
InternationalConferenceonComputerVision,2015:
1440-1448.
[17]LUOW,LIY,URTASUNR,tandingthe
effectivereceptivefieldindeepconvolutionalneuralnet-
works[C]//NeuralInformationProcessingSystems,2016:
4898-4906.
[18]FUCY,LIUW,RANGAA,:deconvolutional
singleshotdetector[J].arXiv:1701.06659,2017.
[19]SIMONYANK,eepconvolutional
networksforlarge-scaleimagerecognition[C]//Proceed-
ingsofICLR,2015.