最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

改进SSD的安全帽检测方法

IT圈 admin 35浏览 0评论

2024年10月13日发(作者:墨曼语)

1922021,57(8)

ComputerEngineeringandApplications计算机工程与应用

改进SSD的安全帽检测方法

李明山,韩清鹏,张天宇,王道累

上海电力大学计算机科学与技术学院,上海200090

摘要:施工人员佩戴安全帽是安全生产的重要一环,为保障工人生命安全,同时克服传统人工巡检费时费力的缺

点,提出了一种基于SingleShotMultiBoxDetector(SSD)改进的安全帽检测新方法。针对安全帽数据集内目标尺

度偏小,尺度分布不均衡,对SSD模型结构进行改进,添加用以特征融合的分支网络,增强浅层特征图语义,引入该网

络后SSD300的mAP-50(meanAveragePrecision)相应提升2.3个百分点,且SSD300实时检测速率仅降低1.3frame/s,

达到39.6frame/s。为使SSD模型的先验框与有效感受野匹配,对SSD默认框设置方法进行改进,引入可变参数间接

调节先验框大小,改进后的SSD300与SSD512的mAP分别达到74.6%与82.5%。安全帽数据集测试结果表明,改进

后的SSD模型对安全帽佩戴检测具有优秀的准确性与良好的实时性,基本满足实际应用需求。

关键词:深度学习;计算机视觉;SSD;安全帽检测;特征融合;小目标

文献标志码:A中图分类号:TP391.41;TU714doi:10.3778/.1002-8331.2008-0155

SafetyHelmetDetectionMethodofImprovedSSD

LIMingshan,HANQingpeng,ZHANGTianyu,WANGDaolei

CollegeofComputerScienceandTechnology,ShanghaiUniversityofElectricPower,Shanghai200090,China

Abstract:Safetyhelmetswornbyworkersisanimportantpartofsafetyconstruction,toprotectworkers’livesandover-

comethedefectofmanualinspection,anewhelmetdetectionmethodbasedonimprovedSingleShotMultiBoxDetector

(SSD)iderationofobjects’distributioninhelmetdatasetisimbalancedandobjectsaregenerally

small,abranchnetworkforfeaturefusionisaddedtoSSD,itcanenhancetheshallowfeaturemaps’semanticsandthe

mAP(meanAveragePrecision)ofSSD300isincreasedby2.3percentagepoints,andthereal-timedetectionrateisreduced

byonly1.3frame/s,reaches39.6frame/rtomakeSSD’spriorboxesmatchwiththeeffectivereceptivefield,

thedefaultboxsettingmethodisimprovedandthesizeofpriorboxesisadjustedindirectlybyintroducingavariable

ofSSD300andSSD512reach74.6%and82.5%erimentalresultsshowthatthe

improvedSSDmodelhasexcellentaccuracyandgoodreal-timeperformanceandbasicallymeetstherequirementsof

practicalapplication.

Keywords:deeplearning;computervision;SingleShotMultiBoxDetector(SSD);helmetdetection;featurefusion;

smallobject

伴随社会发展,安全问题越发受到大众关注。安全

帽佩戴能够减轻因坠落物对施工人员头部造成的损害,

保护施工人员的人身安全,佩戴安全帽是安全施工重要

一环。现阶段,安全帽主要检测方式仍是人工巡检,该

种方式费时费力,检测效率低下。近年来,随着计算机

视觉的发展,无人化智能安全帽检测方法凭借检测成本

低、效率高的优点开始受到人们重视。

刘云波等

[1]

提出通过背景差法与二值化将运动目标

分割出来,并综合多种算法对目标进行特征匹配判断是

基金项目:国家自然科学基金(61502297)。

否佩戴安全帽。然而此类传统计算机视觉方法主要依

靠人为设计的算子(SIFT

[2]

、SURF

[3]

)对特征进行提取,

并通过SVM

[4]

、AdaBoost

[5]

等算法进行分类,此类方法极

度依赖设计者的经验,且特征提取过程可能涉及多种算

法,导致流程较为繁琐。

近年来,深度学习凭借其准确性高、鲁棒性强的特

点成为目标检测研究热点方法之一。现阶段基于深度

学习的目标检测算法多是在图像上铺设不同大小的锚

框,通过回归与分类锚框实现目标检测。按照回归框的

作者简介:李明山(1996—),男,硕士研究生,主要研究方向为计算机视觉;王道累(1981—),通信作者,男,博士,副教授,主要研

究方向为计算机视觉、图像处理、CAD/CAM,E-mail:*******************.cn。

收稿日期:2020-08-11修回日期:2020-11-30文章编号:1002-8331(2021)08-0192-06

李明山,等:改进SSD的安全帽检测方法

生成方式主要分为二阶段与单阶段两大类。其中二阶

段检测器,如FasterRCNN

[6]

、MaskRCNN

[7]

通过RPN

筛选出区域提案后进一步提取特征并对回归框进行微

调与分类。此类检测器有较高的准确率但是检测速度

慢。单阶段检测器如YOLOv3

[8]

算法提取特征信息后直

接回归得到坐标编码与分类得分,该类检测器具有强实

时性,但检测精度相对较低。

大多数学者对安全帽佩戴检测提出的方法是基于

YOLOv3改进的。秦嘉等

[9]

提出结合YOLOv3与卡尔曼

滤波算法实现安全帽检测与追踪。施辉等

[10]

提出通过

特征金字塔进行特征融合并对YOLOv3用更多尺度特

征图检测。王兵等

[11]

对相似度计算方式进行改进,提出

改进GIoUYOLOv3的安全帽检测方法。乌民雨等

[12]

提出通过反卷积上采样特征图并进行特征融合提升

YOLOv3的检测准度。

Huang等

[13]

指出,在待检目标尺度相对较小时,基于

锚框的检测器的检测准度都会急剧下降。然而,安全帽

检测任务中多以小目标为主,必然出现检测效果不佳的

现象,上述方法均没有针对这一问题提出改进方案。为

解决这一问题,本文基于SingleShotMultiBoxDetector

SSD)

[14]

进行改进,提出一种新型特征金字塔,帮助模

型进行特征融合,弥补不同特征图的语义差距,增强浅

层特征图语义,改善SSD算法对小目标检测的表现,该

分支网络仅需较少的时间代价即可带来较高的准度提

升。同时本文对SSD算法的默认框设置方式进行改进,

让先验框尺度与有效感受野更为匹配,提高改进SSD模

型在安全帽检测任务中的表现。

1相关工作

1.1SSD

1.1.1SSD网络架构

SSD是一种常用单阶段目标检测算法,网络结构如

图1所示,待检测图片通过SSD自底向上的骨干卷积神

经网络与额外添加的卷积层提取特征信息,选取多阶段

特征图进行边框回归与分类,产生一系列回归框与分类

得分,随后非极大抑制算法筛选回归框输出最终预测

结果。

Boxes

InputConv4_3Fc7Conv8_2Conv9_2Conv10_2Conv11_2

图1原始SSD网络结构

2021,57(8)

193

1.1.2损失函数

SSD算法设置损失函数对模型参数进行更新与优

化。其检测头输出回归框坐标编码与类别得分,训练过

程中的总损失函数表达式如公式(1)所示,总损失由位

置损失与分类损失两部分加权求和得到,其中

x={1,0},

代表某个回归框是否匹配GroundTruth框,

N

代表最

终与GroundTruth框匹配的默认框总数。

L(x,c,l,g)=

N

1

(L

conf

(x,c))+αL

loc

(x,l,g))

(1)

计算训练损失并在多轮迭代中不断更新模型参数,

待参数收敛后最终得到较为稳定的检测模型。

1.1.3默认框选取

SSD采用单阶段检测器直接进行边框回归与分类

的机制,也采用了类似于FasterRCNN的Anchor机制

对局部提取不同高宽比的回归框。

假定

m

个尺度的特征图负责检测,SSD算法根据

公式(2)分阶段设置默认框边长,其中

S

min

S

max

分别

代表最底层以及最高层用以检测的特征图占原始图像

比例,通常取值0.2与0.9。

S

k

=S

min

+(S

max

-S

min

)×(k-1)/(m-1),k∈[1,m]

(2)

设置宽高比

a

r

∈{1,2,3,1/2,1/3}

,由公式(3)、公

式(4)分别计算得到多阶段特征图对应先验框宽高。

w

a

k

=S

k

a

r

(3)

h

a

k

=S

k

/a

r

(4)

给定预测框为

G

=(G

x

,G

y

,G

w

,G

h

)

,其中

G

x

G

y

为预测框中心点的

x

y

坐标,

G

w

G

h

为预测框的

宽与高。给定先验框为

G=(G

x

,G

y

,G

w

,G

h

)

。SSD输出

坐标编码信息为

d=(d

x

,d

y

,d

w

,d

h

)

。预测框坐标与先

验框坐标关系如公式(5)~(8)所示。

G

x

=G

x

+G

w

×d

(5)

G

x

y

=G

y

+G

h

×d

y

(6)

G

w

=G

w

×exp(d

w

)

(7)

G

h

=G

h

×exp(d

h

)

(8)

1.2FeaturePyramidNetworks

近年来,FasterRCNN等基于卷积神经网络的检测

器大幅提升了目标检测的准度。此类检测器往往使用

卷积层提取特征信息,通过最大池化层等手段多次下采

样获取不同尺度的特征图,其中特征图有尺度依次减

小、语义逐渐增强的特点,同时浅层的特征图具有更多

低水平特征。

FeaturePyramidNetworks(FPN)

[15]

对FasterRCNN

进行改进并提出了一种自顶向下的特征金字塔网络,如

图2。FPN对骨干网络中处于深层次的特征图进行逐层

上采样,并将同一尺度的特征图进行特征融合。分支网

络不同层特征图分别通过RPN获取候选框与前后景分

类置信度,使用FastRCNN

[16]

进行候选框修正与分类。

1942021,57(8)

ComputerEngineeringandApplications计算机工程与应用

该网络一定程度上弥补了特征图之间语义差距,使不同

尺度的特征图都有着较强的语义,提升了检测器对小目

标的检测效果。

head

head

(2)特征融合网络

特征融合网络选择与卷积网络相同的特征图输入,

采用反卷积对特征图进行逐层放大,通过元素累加的方

式对同尺度特征图进行特征融合。值得注意的是本特

征融合网络各层特征图输出通道数对应于原始SSD,与

FPN输出通道数设置方案不同。

通过本文提出的改进特征金字塔,较为浅层的特征

图也具有了较强的语义,减轻了因低水平的特征对目标

识别表达的损害,提高了SSD算法对小型、中型安全帽

目标检测的准度。

head

2.2

图2FPN结构示意图

改进先验框设置

本文针对安全帽数据集中所有目标的Ground

2改进SSD模型

改进SSD模型整体网络结构如图3所示。本章将

Truth框计算面积后开平方根取值(安全帽待检目标普

遍成正方形)并进行统计,绘制频数分布直方图,如图4,

在本数据集中,目标总计约合十二万,待检目标的

GroundTruth框尺度分布极度不均衡,且以小目标为

主,绝大部分目标分辨率集中在100×100以内,其中分

辨率小于16×16的GroundTruth框占比56%,分辨率小于

32×32的占比约89%,极少部分目标分辨率大于100×100。

基于锚框的目标检测器在对小尺度目标进行检测

时,往往检测准度会出现严重的下滑。这种现象是目标

特征压缩与先验框设置不合理共同造成的。待检目标

在经过SSD的卷积神经网络多次池化(如最大池化)后

图像特征将出现明显压缩。尤其在安全帽检测中,多为

小尺度目标,在经过压缩后仅留下较少特征能够用以检

测,这将明显影响SSD对于安全帽检测准度。同时,

Conv11_2

head

ConvModule

对改进SSD模型进行展开介绍,其中包括新型特征融合

网络(2.1节)、改进的先验框设置方法(2.2节)。

2.1改进特征金字塔网络

本文提出了一种新型特征金字塔网络,如图3。该

分支网络由自底向上的卷积网络与自顶向下的特征融

合网络两部分构成。

(1)卷积网络

卷积网络可以作为SSD骨架网络的延伸,提取特征图

给检测器进行目标检测。在本文中,选定图3中Conv9_2

的特征图作为输入,通过连续的卷积模块提取特征图并

输出给检测头进行边框回归与分类。

Conv3×3×256

ConvModule

Conv1×1×128

Conv10_2

ConvModule

Conv9_2

Conv8_2

Conv1×1×256

Fc7

Conv1×1×256

Conv1×1×256

DeConv

DeConv

Conv3×3×1024

Conv3×3×512

head

head

Conv3×3×512

head

head

改进特征金字塔

Conv4_3

head

输入图像

图3改进SSD模型

李明山,等:改进SSD的安全帽检测方法

4

4

3

0

1

/

2

1

0

50300

目标尺度/pixel

图4目标尺度频数分布直方图

Luo等

[17]

指出影响卷积神经网络单元的感受野分为理论

感受野与有效感受野。由于感受野内的像素并不能均

一地影响卷积神经单元的信号值,即中心区域处于有效

感受野的像素将产生更大的影响,且有效感受野将小于

理论感受野。原始SSD的先验框设置对于安全帽检测

任务的有效感受野明显偏大,导致检测效果明显下降。

为解决以上问题,本文通过改进SSD默认框边长

设置,引入可调节参数

n

来间接调整先验框取值,如公

式(9)所示:

ì

í

S

min

=(n×s)

2

/A

î

SS-S

,k∈[1,m]

(9)

k

=

min

+(S

maxmin

)×(k-1)/(m-1)

其中

A

为最底层特征图面积。取

n

倍于最底层特征图

的步长

s

作为最小默认框边长(本模型取

n=2)

,此时

默认框面积占原图面积比值为对应

S

min

,并取经验数

S

max

=0.8

,带入默认框边长计算公式即可求得默认

框取值。

3实验与结果分析

3.1数据集制作

本实验所选取的数据集由网络爬虫、监控视频以及

道路施工现场照片三部分组成,如图5所示,包含两类

物体:佩戴安全帽(hat)、未佩戴安全帽(person)。共计

7226张图片,按照7∶2∶1的比例进行划分,训练集5081

张图片,测试集与校验集分别有1445700张图片,并按

照VOC数据集格式进行存储。本数据集中目标尺度分

布极度不均衡,对目标检测提出了较大挑战,然而,本数

据集更符合实际施工应用场景。

图5数据集样例

3.2网络训练

Fu等

[18]

已经表明,选用更先进的骨干网络能够有效

2021,57(8)

195

地提升SSD检测器的表现,为了更公平地比较原算法与

改进后的算法在安全帽检测任务上的性能,本实验中改

进SSD仍旧采用VGG-16

[19]

作为骨干网络,并通过加载

预训练权重加快收敛。实验采用随机梯度下降的优化

方式,学习率设置为0.0001,动量为0.9,权重衰减0.0005,

样本数16,并设置等间距调整学习率。网络采取固定学

习率训练80轮,之后学习率降低至原来的十分之一进

行微调,本实验采用与原始SSD相同的图像增强手段,

如随机裁剪、水平镜像等方法。

3.3对比实验结果与分析

本实验采用目前较为常用的几种目标检测算法进

行对比:FasterRCNN、YOLOv3。本实验中YOLOv3的

训练样本数为16,其余采取文献[8]相同的设置进行训

练。FasterRCNN的训练采用端到端的训练方案,共计

训练50轮,其余设置与文献[6]相同。

实验结果如表1所示。本文所提出的改进SSD安

全帽检测方法,对于各类目标的AP-50(AveragePreci-

sion)分别达到了78.21%与71.0%,mAP(meanAverage

Precision)达到74.6%,远高于FasterRCNN的mAP

63.0%与YOLOv3的mAP58.4%。改进SSD512的mAP

高达82.5%。综合实验结果看,改进后的算法对安全

帽检测检测准确性方面表现优秀,基本满足实际场景

需求。

表1AP-50及mAP-50对比

%

网络模型

AP-50

hatperson

mAP-50

FasterRCNN81.9044.263.0

YOLOv332072.7044.158.4

SSD30074.0036.355.2

SSD51278.9067.473.2

改进SSD300

78.2171.074.6

改进SSD512

86.5078.582.5

为验证本文所提方法的实时性,将样本数设置为1,

让各模型分别对测试集共计1445张图片进行检测,计

算各模型检测速率并进行对比,实验结果如表2,实验显

卡为TeslaV100-SXM2。其中,YOLOv3的检测速率最

快,达到了59frame/s,本文所提出的改进SSD安全帽检

测模型在检测准度大幅提高的情况下,检测速度仅降低

1.3frame/s,平均检测速率达到39.6frame/s,在优秀准度

的基础上兼具良好实时性。

表2检测速率对比

网络模型

检测速率/(frame⋅s

-1

)

FasterRCNN14.0

YOLOv332059.0

SSD30040.9

改进SSD300

39.6

1962021,57(8)

ComputerEngineeringandApplications计算机工程与应用

3.4消融实验结果与分析

本文设置消融实验以探究各改进对模型的影响,

3.4.1小节将介绍改进特征金字塔的影响与分析,3.4.2

小节将介绍改进先验框设置的影响与分析。

3.4.1特征金字塔消融实验

改进FPN对原始SSD网络结构有着良好兼容性,

为探究其对SSD检测准度产生的影响,本文分别设置两

组模型对照,一组为原始SSD,另一组为添加FPN后的

SSD,其余设置均与文献[14]相同。实验结果如表3,添

加改进后SSD模型对于各类目标AP分别达到了76.5%

与38.5%,mAP达到了57.5%,较原始SSD的mAP有2.3

个百分点的提升。

表3特征金字塔消融实验结果

%

网络模型

AP-50

hatperson

mAP-50

SSD74.036.355.2

SSD-FPN76.538.557.5

实验证明,改进后SSD通过特征融合有效弥补了不

同特征图之间的语义差距,增强了浅层特征图的语义,

有效提升了SSD模型对安全帽检测的准度。

3.4.2先验框消融实验

本文所提出的改进公式(9)通过可调节参数

n

控制

默认框取值,实现调节先验框大小。本小节将设置不同

取值的

n

,间接探究先验框大小对改进SSD安全帽检测

模型准度的影响。

改进SSD安全帽检测模型首先固定经验值

S

max

=

0.8,之后设置

n∈{1,2,4,6}

,其余训练参数相同,进行训

练并测试,实验结果如表4。

表4不同

n

取值下改进SSD检测结果

n

AP-50/%

hatperson

mAP-50/%

176.7059.5868.1

278.2171.0074.6

478.6063.4071.0

679.6048.0063.8

n=6

时,先验框大小较原始SSD降低,mAP有较大

提升,但仍明显与有效感受野不匹配。在

n

取值由6开

始降低,先验框进一步减小,mAP由63.8%逐渐增加至

74.6%,其中尤其以未佩戴安全帽目标检测的AP值提升

最为明显,AP值由48%提升至71%。检测器准度的提

升说明随着降低

n

取值,先验框尺度逐步减小,与有效

感受野匹配度逐步增加,更利于安全帽检测。

n

由2降低至1时,检测器的mAP开始明显降低,此

现象表明并不能因为数据集以小目标为主而无限制地

降低先验框取值。对于如安全帽此类目标进行检测时,

先验框取值应适当减小,但仍然需要匹配有效感受野,

否则检测器性能会出现不同程度衰退。

3.5目标检测结果

对改进前后检测结果对比,效果如图6所示,其中

图(a)、(c)为SSD300检测结果图,图(b)、(d)为改进

SSD在相同场景下得到的检测结果图。观察对比可以

看出,在安全帽数据集中,改进SSD模型对各类目标检

测准度相较于SSD300都有较大提升,漏检数目明显

降低。

(a)SSD检测图1(b)改进SSD检测图1

(c)SSD检测图2(d)改进SSD检测图2

图6SSD改进前后检测结果对比

4结束语

针对安全帽数据集以小目标为主的特点,对SSD模

型进行改进,引入分支网络进行特征融合,使浅层特征

图语义增强,SSD300对安全帽检测的mAP提升2.3个

百分点。同时改进SSD默认框设置方法,使先验框与有

效感受野更为匹配,改进SSD安全帽检测模型检测准度

进一步提升,SSD300与SSD512的mAP分别达到74.6%

与82.5%,同时SSD300检测速率达到39.6frame/s,本模

型具有优秀检测准度并兼具良好实时性,基本接近实际

应用需求。下一步研究主要关注如何进一步提高检测

器检测速度,并加强检测器在不同环境条件下检测的鲁

棒性。

参考文献:

[1]刘云波,黄华.施工现场安全帽佩戴情况监控技术研究[J].

电子科技,2015(4):75-78.

[2]ctiveimagefeaturesfromscale-invariant

keypoints[J].InternationalJournalofComputerVision,2004,

60(2):91-110.

[3]:speededuprobustfeatures[J].Computer

Vision&ImageUnderstanding,2006,110(3):404-417.

李明山,等:改进SSD的安全帽检测方法

[4]ialonsupportvectormachines

forpatternrecognition[J].DataMiningandKnowledge

Discovery,1998,2(2):121-167.

[5]FREUNDY,ion-theoreticgenera-

lizationofon-linelearningandanapplicationtoboost-

ing[J].JournalofComputerandSystemSciences,1997,

55(1):119-139.

[6]RENS,HEK,GIRSHICKR,R-CNN:towards

real-timeobjectdetectionwithregionproposalnetworks[J].

IEEETransactionsonPatternAnalysis&MachineIntelli-

gence,2017,39(6):1137-1149.

[7]HEK,GKIOXARIG,DOLLÁRP,-CNN[J].

IEEETransactionsonPatternAnalysis&MachineIntel-

ligence,2020,42(2):386-397.

[8]REDMONJ,3:anincrementalim-

provement[J].arXiv:1804.02767,2018.

[9]秦嘉,曹雪虹,焦良葆.基于深度学习的安全帽佩戴检测与

跟踪[J].计算机与现代化,2020(6):1-6.

[10]施辉,陈先桥,杨英.改进YOLOv3的安全帽佩戴检测方

法[J].计算机工程与应用,2019,55(11):213-220.

[11]王兵,李文璟,唐欢.改进YOLOv3算法及其在安全帽检

测中的应用[J].计算机工程与应用,2020,56(9):33-40.

[12]乌民雨,陈晓辉.一种基于改进YOLOv3的安全帽检测

方法[J].信息通信,2020(6):12-14.

2021,57(8)

197

[13]HUANGJ,RATHODV,SUNC,/accuracy

trade-offsformodernconvolutionalobjectdetectors[C]//

IEEEConferenceonComputerVisionandPatternRec-

ognition(CVPR),2016.

[14]LIUW,ANGUELOVD,ERHAND,:single

shotmultiboxdetector[C]//ProceedingsoftheIEEEEu-

dam,The

Netherlands:IEEE,2016:21-37.

[15]LINTY,DOLLARP,GIRSHICKRB,e

pyramidnetworksforobjectdetection[C]//IEEEConfer-

enceonComputerVisionandPatternRecognition

(CVPR),2017:936-944.

[16]-CNN[C]//ProceedingsoftheIEEE

InternationalConferenceonComputerVision,2015:

1440-1448.

[17]LUOW,LIY,URTASUNR,tandingthe

effectivereceptivefieldindeepconvolutionalneuralnet-

works[C]//NeuralInformationProcessingSystems,2016:

4898-4906.

[18]FUCY,LIUW,RANGAA,:deconvolutional

singleshotdetector[J].arXiv:1701.06659,2017.

[19]SIMONYANK,eepconvolutional

networksforlarge-scaleimagerecognition[C]//Proceed-

ingsofICLR,2015.

2024年10月13日发(作者:墨曼语)

1922021,57(8)

ComputerEngineeringandApplications计算机工程与应用

改进SSD的安全帽检测方法

李明山,韩清鹏,张天宇,王道累

上海电力大学计算机科学与技术学院,上海200090

摘要:施工人员佩戴安全帽是安全生产的重要一环,为保障工人生命安全,同时克服传统人工巡检费时费力的缺

点,提出了一种基于SingleShotMultiBoxDetector(SSD)改进的安全帽检测新方法。针对安全帽数据集内目标尺

度偏小,尺度分布不均衡,对SSD模型结构进行改进,添加用以特征融合的分支网络,增强浅层特征图语义,引入该网

络后SSD300的mAP-50(meanAveragePrecision)相应提升2.3个百分点,且SSD300实时检测速率仅降低1.3frame/s,

达到39.6frame/s。为使SSD模型的先验框与有效感受野匹配,对SSD默认框设置方法进行改进,引入可变参数间接

调节先验框大小,改进后的SSD300与SSD512的mAP分别达到74.6%与82.5%。安全帽数据集测试结果表明,改进

后的SSD模型对安全帽佩戴检测具有优秀的准确性与良好的实时性,基本满足实际应用需求。

关键词:深度学习;计算机视觉;SSD;安全帽检测;特征融合;小目标

文献标志码:A中图分类号:TP391.41;TU714doi:10.3778/.1002-8331.2008-0155

SafetyHelmetDetectionMethodofImprovedSSD

LIMingshan,HANQingpeng,ZHANGTianyu,WANGDaolei

CollegeofComputerScienceandTechnology,ShanghaiUniversityofElectricPower,Shanghai200090,China

Abstract:Safetyhelmetswornbyworkersisanimportantpartofsafetyconstruction,toprotectworkers’livesandover-

comethedefectofmanualinspection,anewhelmetdetectionmethodbasedonimprovedSingleShotMultiBoxDetector

(SSD)iderationofobjects’distributioninhelmetdatasetisimbalancedandobjectsaregenerally

small,abranchnetworkforfeaturefusionisaddedtoSSD,itcanenhancetheshallowfeaturemaps’semanticsandthe

mAP(meanAveragePrecision)ofSSD300isincreasedby2.3percentagepoints,andthereal-timedetectionrateisreduced

byonly1.3frame/s,reaches39.6frame/rtomakeSSD’spriorboxesmatchwiththeeffectivereceptivefield,

thedefaultboxsettingmethodisimprovedandthesizeofpriorboxesisadjustedindirectlybyintroducingavariable

ofSSD300andSSD512reach74.6%and82.5%erimentalresultsshowthatthe

improvedSSDmodelhasexcellentaccuracyandgoodreal-timeperformanceandbasicallymeetstherequirementsof

practicalapplication.

Keywords:deeplearning;computervision;SingleShotMultiBoxDetector(SSD);helmetdetection;featurefusion;

smallobject

伴随社会发展,安全问题越发受到大众关注。安全

帽佩戴能够减轻因坠落物对施工人员头部造成的损害,

保护施工人员的人身安全,佩戴安全帽是安全施工重要

一环。现阶段,安全帽主要检测方式仍是人工巡检,该

种方式费时费力,检测效率低下。近年来,随着计算机

视觉的发展,无人化智能安全帽检测方法凭借检测成本

低、效率高的优点开始受到人们重视。

刘云波等

[1]

提出通过背景差法与二值化将运动目标

分割出来,并综合多种算法对目标进行特征匹配判断是

基金项目:国家自然科学基金(61502297)。

否佩戴安全帽。然而此类传统计算机视觉方法主要依

靠人为设计的算子(SIFT

[2]

、SURF

[3]

)对特征进行提取,

并通过SVM

[4]

、AdaBoost

[5]

等算法进行分类,此类方法极

度依赖设计者的经验,且特征提取过程可能涉及多种算

法,导致流程较为繁琐。

近年来,深度学习凭借其准确性高、鲁棒性强的特

点成为目标检测研究热点方法之一。现阶段基于深度

学习的目标检测算法多是在图像上铺设不同大小的锚

框,通过回归与分类锚框实现目标检测。按照回归框的

作者简介:李明山(1996—),男,硕士研究生,主要研究方向为计算机视觉;王道累(1981—),通信作者,男,博士,副教授,主要研

究方向为计算机视觉、图像处理、CAD/CAM,E-mail:*******************.cn。

收稿日期:2020-08-11修回日期:2020-11-30文章编号:1002-8331(2021)08-0192-06

李明山,等:改进SSD的安全帽检测方法

生成方式主要分为二阶段与单阶段两大类。其中二阶

段检测器,如FasterRCNN

[6]

、MaskRCNN

[7]

通过RPN

筛选出区域提案后进一步提取特征并对回归框进行微

调与分类。此类检测器有较高的准确率但是检测速度

慢。单阶段检测器如YOLOv3

[8]

算法提取特征信息后直

接回归得到坐标编码与分类得分,该类检测器具有强实

时性,但检测精度相对较低。

大多数学者对安全帽佩戴检测提出的方法是基于

YOLOv3改进的。秦嘉等

[9]

提出结合YOLOv3与卡尔曼

滤波算法实现安全帽检测与追踪。施辉等

[10]

提出通过

特征金字塔进行特征融合并对YOLOv3用更多尺度特

征图检测。王兵等

[11]

对相似度计算方式进行改进,提出

改进GIoUYOLOv3的安全帽检测方法。乌民雨等

[12]

提出通过反卷积上采样特征图并进行特征融合提升

YOLOv3的检测准度。

Huang等

[13]

指出,在待检目标尺度相对较小时,基于

锚框的检测器的检测准度都会急剧下降。然而,安全帽

检测任务中多以小目标为主,必然出现检测效果不佳的

现象,上述方法均没有针对这一问题提出改进方案。为

解决这一问题,本文基于SingleShotMultiBoxDetector

SSD)

[14]

进行改进,提出一种新型特征金字塔,帮助模

型进行特征融合,弥补不同特征图的语义差距,增强浅

层特征图语义,改善SSD算法对小目标检测的表现,该

分支网络仅需较少的时间代价即可带来较高的准度提

升。同时本文对SSD算法的默认框设置方式进行改进,

让先验框尺度与有效感受野更为匹配,提高改进SSD模

型在安全帽检测任务中的表现。

1相关工作

1.1SSD

1.1.1SSD网络架构

SSD是一种常用单阶段目标检测算法,网络结构如

图1所示,待检测图片通过SSD自底向上的骨干卷积神

经网络与额外添加的卷积层提取特征信息,选取多阶段

特征图进行边框回归与分类,产生一系列回归框与分类

得分,随后非极大抑制算法筛选回归框输出最终预测

结果。

Boxes

InputConv4_3Fc7Conv8_2Conv9_2Conv10_2Conv11_2

图1原始SSD网络结构

2021,57(8)

193

1.1.2损失函数

SSD算法设置损失函数对模型参数进行更新与优

化。其检测头输出回归框坐标编码与类别得分,训练过

程中的总损失函数表达式如公式(1)所示,总损失由位

置损失与分类损失两部分加权求和得到,其中

x={1,0},

代表某个回归框是否匹配GroundTruth框,

N

代表最

终与GroundTruth框匹配的默认框总数。

L(x,c,l,g)=

N

1

(L

conf

(x,c))+αL

loc

(x,l,g))

(1)

计算训练损失并在多轮迭代中不断更新模型参数,

待参数收敛后最终得到较为稳定的检测模型。

1.1.3默认框选取

SSD采用单阶段检测器直接进行边框回归与分类

的机制,也采用了类似于FasterRCNN的Anchor机制

对局部提取不同高宽比的回归框。

假定

m

个尺度的特征图负责检测,SSD算法根据

公式(2)分阶段设置默认框边长,其中

S

min

S

max

分别

代表最底层以及最高层用以检测的特征图占原始图像

比例,通常取值0.2与0.9。

S

k

=S

min

+(S

max

-S

min

)×(k-1)/(m-1),k∈[1,m]

(2)

设置宽高比

a

r

∈{1,2,3,1/2,1/3}

,由公式(3)、公

式(4)分别计算得到多阶段特征图对应先验框宽高。

w

a

k

=S

k

a

r

(3)

h

a

k

=S

k

/a

r

(4)

给定预测框为

G

=(G

x

,G

y

,G

w

,G

h

)

,其中

G

x

G

y

为预测框中心点的

x

y

坐标,

G

w

G

h

为预测框的

宽与高。给定先验框为

G=(G

x

,G

y

,G

w

,G

h

)

。SSD输出

坐标编码信息为

d=(d

x

,d

y

,d

w

,d

h

)

。预测框坐标与先

验框坐标关系如公式(5)~(8)所示。

G

x

=G

x

+G

w

×d

(5)

G

x

y

=G

y

+G

h

×d

y

(6)

G

w

=G

w

×exp(d

w

)

(7)

G

h

=G

h

×exp(d

h

)

(8)

1.2FeaturePyramidNetworks

近年来,FasterRCNN等基于卷积神经网络的检测

器大幅提升了目标检测的准度。此类检测器往往使用

卷积层提取特征信息,通过最大池化层等手段多次下采

样获取不同尺度的特征图,其中特征图有尺度依次减

小、语义逐渐增强的特点,同时浅层的特征图具有更多

低水平特征。

FeaturePyramidNetworks(FPN)

[15]

对FasterRCNN

进行改进并提出了一种自顶向下的特征金字塔网络,如

图2。FPN对骨干网络中处于深层次的特征图进行逐层

上采样,并将同一尺度的特征图进行特征融合。分支网

络不同层特征图分别通过RPN获取候选框与前后景分

类置信度,使用FastRCNN

[16]

进行候选框修正与分类。

1942021,57(8)

ComputerEngineeringandApplications计算机工程与应用

该网络一定程度上弥补了特征图之间语义差距,使不同

尺度的特征图都有着较强的语义,提升了检测器对小目

标的检测效果。

head

head

(2)特征融合网络

特征融合网络选择与卷积网络相同的特征图输入,

采用反卷积对特征图进行逐层放大,通过元素累加的方

式对同尺度特征图进行特征融合。值得注意的是本特

征融合网络各层特征图输出通道数对应于原始SSD,与

FPN输出通道数设置方案不同。

通过本文提出的改进特征金字塔,较为浅层的特征

图也具有了较强的语义,减轻了因低水平的特征对目标

识别表达的损害,提高了SSD算法对小型、中型安全帽

目标检测的准度。

head

2.2

图2FPN结构示意图

改进先验框设置

本文针对安全帽数据集中所有目标的Ground

2改进SSD模型

改进SSD模型整体网络结构如图3所示。本章将

Truth框计算面积后开平方根取值(安全帽待检目标普

遍成正方形)并进行统计,绘制频数分布直方图,如图4,

在本数据集中,目标总计约合十二万,待检目标的

GroundTruth框尺度分布极度不均衡,且以小目标为

主,绝大部分目标分辨率集中在100×100以内,其中分

辨率小于16×16的GroundTruth框占比56%,分辨率小于

32×32的占比约89%,极少部分目标分辨率大于100×100。

基于锚框的目标检测器在对小尺度目标进行检测

时,往往检测准度会出现严重的下滑。这种现象是目标

特征压缩与先验框设置不合理共同造成的。待检目标

在经过SSD的卷积神经网络多次池化(如最大池化)后

图像特征将出现明显压缩。尤其在安全帽检测中,多为

小尺度目标,在经过压缩后仅留下较少特征能够用以检

测,这将明显影响SSD对于安全帽检测准度。同时,

Conv11_2

head

ConvModule

对改进SSD模型进行展开介绍,其中包括新型特征融合

网络(2.1节)、改进的先验框设置方法(2.2节)。

2.1改进特征金字塔网络

本文提出了一种新型特征金字塔网络,如图3。该

分支网络由自底向上的卷积网络与自顶向下的特征融

合网络两部分构成。

(1)卷积网络

卷积网络可以作为SSD骨架网络的延伸,提取特征图

给检测器进行目标检测。在本文中,选定图3中Conv9_2

的特征图作为输入,通过连续的卷积模块提取特征图并

输出给检测头进行边框回归与分类。

Conv3×3×256

ConvModule

Conv1×1×128

Conv10_2

ConvModule

Conv9_2

Conv8_2

Conv1×1×256

Fc7

Conv1×1×256

Conv1×1×256

DeConv

DeConv

Conv3×3×1024

Conv3×3×512

head

head

Conv3×3×512

head

head

改进特征金字塔

Conv4_3

head

输入图像

图3改进SSD模型

李明山,等:改进SSD的安全帽检测方法

4

4

3

0

1

/

2

1

0

50300

目标尺度/pixel

图4目标尺度频数分布直方图

Luo等

[17]

指出影响卷积神经网络单元的感受野分为理论

感受野与有效感受野。由于感受野内的像素并不能均

一地影响卷积神经单元的信号值,即中心区域处于有效

感受野的像素将产生更大的影响,且有效感受野将小于

理论感受野。原始SSD的先验框设置对于安全帽检测

任务的有效感受野明显偏大,导致检测效果明显下降。

为解决以上问题,本文通过改进SSD默认框边长

设置,引入可调节参数

n

来间接调整先验框取值,如公

式(9)所示:

ì

í

S

min

=(n×s)

2

/A

î

SS-S

,k∈[1,m]

(9)

k

=

min

+(S

maxmin

)×(k-1)/(m-1)

其中

A

为最底层特征图面积。取

n

倍于最底层特征图

的步长

s

作为最小默认框边长(本模型取

n=2)

,此时

默认框面积占原图面积比值为对应

S

min

,并取经验数

S

max

=0.8

,带入默认框边长计算公式即可求得默认

框取值。

3实验与结果分析

3.1数据集制作

本实验所选取的数据集由网络爬虫、监控视频以及

道路施工现场照片三部分组成,如图5所示,包含两类

物体:佩戴安全帽(hat)、未佩戴安全帽(person)。共计

7226张图片,按照7∶2∶1的比例进行划分,训练集5081

张图片,测试集与校验集分别有1445700张图片,并按

照VOC数据集格式进行存储。本数据集中目标尺度分

布极度不均衡,对目标检测提出了较大挑战,然而,本数

据集更符合实际施工应用场景。

图5数据集样例

3.2网络训练

Fu等

[18]

已经表明,选用更先进的骨干网络能够有效

2021,57(8)

195

地提升SSD检测器的表现,为了更公平地比较原算法与

改进后的算法在安全帽检测任务上的性能,本实验中改

进SSD仍旧采用VGG-16

[19]

作为骨干网络,并通过加载

预训练权重加快收敛。实验采用随机梯度下降的优化

方式,学习率设置为0.0001,动量为0.9,权重衰减0.0005,

样本数16,并设置等间距调整学习率。网络采取固定学

习率训练80轮,之后学习率降低至原来的十分之一进

行微调,本实验采用与原始SSD相同的图像增强手段,

如随机裁剪、水平镜像等方法。

3.3对比实验结果与分析

本实验采用目前较为常用的几种目标检测算法进

行对比:FasterRCNN、YOLOv3。本实验中YOLOv3的

训练样本数为16,其余采取文献[8]相同的设置进行训

练。FasterRCNN的训练采用端到端的训练方案,共计

训练50轮,其余设置与文献[6]相同。

实验结果如表1所示。本文所提出的改进SSD安

全帽检测方法,对于各类目标的AP-50(AveragePreci-

sion)分别达到了78.21%与71.0%,mAP(meanAverage

Precision)达到74.6%,远高于FasterRCNN的mAP

63.0%与YOLOv3的mAP58.4%。改进SSD512的mAP

高达82.5%。综合实验结果看,改进后的算法对安全

帽检测检测准确性方面表现优秀,基本满足实际场景

需求。

表1AP-50及mAP-50对比

%

网络模型

AP-50

hatperson

mAP-50

FasterRCNN81.9044.263.0

YOLOv332072.7044.158.4

SSD30074.0036.355.2

SSD51278.9067.473.2

改进SSD300

78.2171.074.6

改进SSD512

86.5078.582.5

为验证本文所提方法的实时性,将样本数设置为1,

让各模型分别对测试集共计1445张图片进行检测,计

算各模型检测速率并进行对比,实验结果如表2,实验显

卡为TeslaV100-SXM2。其中,YOLOv3的检测速率最

快,达到了59frame/s,本文所提出的改进SSD安全帽检

测模型在检测准度大幅提高的情况下,检测速度仅降低

1.3frame/s,平均检测速率达到39.6frame/s,在优秀准度

的基础上兼具良好实时性。

表2检测速率对比

网络模型

检测速率/(frame⋅s

-1

)

FasterRCNN14.0

YOLOv332059.0

SSD30040.9

改进SSD300

39.6

1962021,57(8)

ComputerEngineeringandApplications计算机工程与应用

3.4消融实验结果与分析

本文设置消融实验以探究各改进对模型的影响,

3.4.1小节将介绍改进特征金字塔的影响与分析,3.4.2

小节将介绍改进先验框设置的影响与分析。

3.4.1特征金字塔消融实验

改进FPN对原始SSD网络结构有着良好兼容性,

为探究其对SSD检测准度产生的影响,本文分别设置两

组模型对照,一组为原始SSD,另一组为添加FPN后的

SSD,其余设置均与文献[14]相同。实验结果如表3,添

加改进后SSD模型对于各类目标AP分别达到了76.5%

与38.5%,mAP达到了57.5%,较原始SSD的mAP有2.3

个百分点的提升。

表3特征金字塔消融实验结果

%

网络模型

AP-50

hatperson

mAP-50

SSD74.036.355.2

SSD-FPN76.538.557.5

实验证明,改进后SSD通过特征融合有效弥补了不

同特征图之间的语义差距,增强了浅层特征图的语义,

有效提升了SSD模型对安全帽检测的准度。

3.4.2先验框消融实验

本文所提出的改进公式(9)通过可调节参数

n

控制

默认框取值,实现调节先验框大小。本小节将设置不同

取值的

n

,间接探究先验框大小对改进SSD安全帽检测

模型准度的影响。

改进SSD安全帽检测模型首先固定经验值

S

max

=

0.8,之后设置

n∈{1,2,4,6}

,其余训练参数相同,进行训

练并测试,实验结果如表4。

表4不同

n

取值下改进SSD检测结果

n

AP-50/%

hatperson

mAP-50/%

176.7059.5868.1

278.2171.0074.6

478.6063.4071.0

679.6048.0063.8

n=6

时,先验框大小较原始SSD降低,mAP有较大

提升,但仍明显与有效感受野不匹配。在

n

取值由6开

始降低,先验框进一步减小,mAP由63.8%逐渐增加至

74.6%,其中尤其以未佩戴安全帽目标检测的AP值提升

最为明显,AP值由48%提升至71%。检测器准度的提

升说明随着降低

n

取值,先验框尺度逐步减小,与有效

感受野匹配度逐步增加,更利于安全帽检测。

n

由2降低至1时,检测器的mAP开始明显降低,此

现象表明并不能因为数据集以小目标为主而无限制地

降低先验框取值。对于如安全帽此类目标进行检测时,

先验框取值应适当减小,但仍然需要匹配有效感受野,

否则检测器性能会出现不同程度衰退。

3.5目标检测结果

对改进前后检测结果对比,效果如图6所示,其中

图(a)、(c)为SSD300检测结果图,图(b)、(d)为改进

SSD在相同场景下得到的检测结果图。观察对比可以

看出,在安全帽数据集中,改进SSD模型对各类目标检

测准度相较于SSD300都有较大提升,漏检数目明显

降低。

(a)SSD检测图1(b)改进SSD检测图1

(c)SSD检测图2(d)改进SSD检测图2

图6SSD改进前后检测结果对比

4结束语

针对安全帽数据集以小目标为主的特点,对SSD模

型进行改进,引入分支网络进行特征融合,使浅层特征

图语义增强,SSD300对安全帽检测的mAP提升2.3个

百分点。同时改进SSD默认框设置方法,使先验框与有

效感受野更为匹配,改进SSD安全帽检测模型检测准度

进一步提升,SSD300与SSD512的mAP分别达到74.6%

与82.5%,同时SSD300检测速率达到39.6frame/s,本模

型具有优秀检测准度并兼具良好实时性,基本接近实际

应用需求。下一步研究主要关注如何进一步提高检测

器检测速度,并加强检测器在不同环境条件下检测的鲁

棒性。

参考文献:

[1]刘云波,黄华.施工现场安全帽佩戴情况监控技术研究[J].

电子科技,2015(4):75-78.

[2]ctiveimagefeaturesfromscale-invariant

keypoints[J].InternationalJournalofComputerVision,2004,

60(2):91-110.

[3]:speededuprobustfeatures[J].Computer

Vision&ImageUnderstanding,2006,110(3):404-417.

李明山,等:改进SSD的安全帽检测方法

[4]ialonsupportvectormachines

forpatternrecognition[J].DataMiningandKnowledge

Discovery,1998,2(2):121-167.

[5]FREUNDY,ion-theoreticgenera-

lizationofon-linelearningandanapplicationtoboost-

ing[J].JournalofComputerandSystemSciences,1997,

55(1):119-139.

[6]RENS,HEK,GIRSHICKR,R-CNN:towards

real-timeobjectdetectionwithregionproposalnetworks[J].

IEEETransactionsonPatternAnalysis&MachineIntelli-

gence,2017,39(6):1137-1149.

[7]HEK,GKIOXARIG,DOLLÁRP,-CNN[J].

IEEETransactionsonPatternAnalysis&MachineIntel-

ligence,2020,42(2):386-397.

[8]REDMONJ,3:anincrementalim-

provement[J].arXiv:1804.02767,2018.

[9]秦嘉,曹雪虹,焦良葆.基于深度学习的安全帽佩戴检测与

跟踪[J].计算机与现代化,2020(6):1-6.

[10]施辉,陈先桥,杨英.改进YOLOv3的安全帽佩戴检测方

法[J].计算机工程与应用,2019,55(11):213-220.

[11]王兵,李文璟,唐欢.改进YOLOv3算法及其在安全帽检

测中的应用[J].计算机工程与应用,2020,56(9):33-40.

[12]乌民雨,陈晓辉.一种基于改进YOLOv3的安全帽检测

方法[J].信息通信,2020(6):12-14.

2021,57(8)

197

[13]HUANGJ,RATHODV,SUNC,/accuracy

trade-offsformodernconvolutionalobjectdetectors[C]//

IEEEConferenceonComputerVisionandPatternRec-

ognition(CVPR),2016.

[14]LIUW,ANGUELOVD,ERHAND,:single

shotmultiboxdetector[C]//ProceedingsoftheIEEEEu-

dam,The

Netherlands:IEEE,2016:21-37.

[15]LINTY,DOLLARP,GIRSHICKRB,e

pyramidnetworksforobjectdetection[C]//IEEEConfer-

enceonComputerVisionandPatternRecognition

(CVPR),2017:936-944.

[16]-CNN[C]//ProceedingsoftheIEEE

InternationalConferenceonComputerVision,2015:

1440-1448.

[17]LUOW,LIY,URTASUNR,tandingthe

effectivereceptivefieldindeepconvolutionalneuralnet-

works[C]//NeuralInformationProcessingSystems,2016:

4898-4906.

[18]FUCY,LIUW,RANGAA,:deconvolutional

singleshotdetector[J].arXiv:1701.06659,2017.

[19]SIMONYANK,eepconvolutional

networksforlarge-scaleimagerecognition[C]//Proceed-

ingsofICLR,2015.

发布评论

评论列表 (0)

  1. 暂无评论