2024年4月15日发(作者:镜安民)
doi:10.15889/j.issn.1002-1302.2023.15.026
杨国亮,王吉祥,聂子玲.基于改进型YOLOv5s的番茄实时识别方法[J].江苏农业科学,2023,51(15):187-193.
基于改进型YOLOv5s的番茄实时识别方法
杨国亮,王吉祥,聂子玲
(江西理工大学电气工程与自动化学院,江西赣州341000)
摘要:针对现有番茄检测精度低、没有品质检测和部署难度高等问题,提出基于YOLOv5s改进的番茄及品质实时
检测方法,并与原始YOLOv5模型及其他经典模型进行对比研究。结果表明,针对番茄大小不同的问题,采用K-
Means++算法重新计算先验锚框提高模型定位精度;在YOLOv5s主干网络末端添加GAM注意力模块,提升模型检测
精度并改善鲁棒性;应用加权双向特征金字塔网络(BiFPN)修改原有结构,完成更深层次的加权特征融合;颈部添加
转换器(transformer),增强网络对多尺度目标的检测能力。改进后的YOLOv5s番茄识别算法检测速度达到72帧/s。
在测试集中对番茄检测均值平均精度(mAP)达到93.9%,分别比SSD、Faster-RCNN、YOLOv4-Tiny、原始YOLOv5s
模型提高17.2、13.1、5.5、3.3百分点。本研究提出的番茄实时检测方法,在保持检测速度的同时,可降低背景因素干
扰,实现复杂场景下对番茄的精准识别,具有非常好的应用前景,为实现番茄自动采摘提供相应技术支持。
关键词:番茄检测;YOLOv5s;K-means++;GAM注意力模块;加权双向特征金字塔
中图分类号:TP391.41 文献标志码:A 文章编号:1002-1302(2023)15-0187-07
番茄作为世界上非常重要的蔬菜作物,每年全
球的总产量可以达到1.7亿t,其在蔬菜作物中常常
位居前列。我国新鲜番茄的出产量常年居于全球
首位,经过加工后的番茄产量则名列全球第二或第
1]
三
[
。随着我国社会老龄化程度的不断加深,用工
难问题也日渐凸现了出来。在番茄生产及销售链
中,采摘工作是一个非常重要的环节,目前采摘工
作仍然是以人工采摘为主,无论是工作环境还是劳
动强度都不尽人意,用时和用工成本也居高不下,
2-3]
番茄自动采摘应运而生
[
。国内外对果蔬自动采
摘的研究大同小异,先通过深度学习进行图像识和
收稿日期:2022-11-28
基金项目:江西省教育厅科技计划(编号:GJJ190450、GJJ180484)。
1973—),男,江西宜春人,博士,教授,主要从事人作者简介:杨国亮(
工智能和模式识别研究。E-mail:ygliang30@126.com。
通信作者:王吉祥,硕士研究生,主要从事模式识别研究。E-mail:
1661270181@qq.com。
4]
定位,再通过执行机构进行采摘
[
。提高对番茄及
其品质的检测,对采摘效率和存储运输都有非常重
要的意义。
由于计算机科学的进步,基于卷积式神经网络
的深度学习得以蓬勃发展。和传统机器学习相比,
櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄
[18]易 翔,张立福,吕 新,等.基于无人机高光谱融合连续投影
算法估算棉花地上部生物量[J].棉花学报,2021,33(3):
224-234.
[19]陶惠林,冯海宽,徐良骥,等.基于无人机高光谱遥感数据的冬小
J].江苏农业学报,2020,36(5):1154-1162.麦生物量估算[
[20]周 萌,韩晓旭,郑恒彪,等.基于参数化和非参数化法的棉花
生物量高光谱遥感估算[J].中国农业科学,2021,54(20):
4299-4311.
[21]石雅娇,陈鹏飞.基于无人机高光谱影像的玉米地上生物量反
J].中国农学通报,2019,35(17):117-123.演[
[22]邓 江,谷海斌,王 泽,等.基于无人机遥感的棉花主要生育
时期地上生物量估算及验证[J].干旱地区农业研究,2019,37
(5):55-61,69.
[23]刘 杨,冯海宽,黄 珏,等.基于无人机高光谱特征参数和株
高估算马铃薯地上生物量[J].光谱学与光谱分析,2021,41
(3):903-911.
[24]DongJW,XiaoXM,WagleP,etal.ComparisonoffourEVI-
basedmodelsforestimatinggrossprimaryproductionofmaizeand
soybeancroplandsandtallgrassprairieunderseveredrought[J].
,2015,162:154-168.RemoteSensingofEnvironment
[25]MajasalmiT,RautiainenM,StenbergP.Modeledandmeasured
fPARinaborealforest:validationandapplicationofanewmodel
[J].AgriculturalandForestMeteorology,2014,189/190:118-
124.
[26]李龙伟.基于时间序列遥感数据的毛竹林物候监测、分类和地
上生物量估测研究[D].杭州:浙江农林大学,2020.
[27]朱吉祥.基于光谱信息的夏玉米水氮状况诊断及产量评估
[D].泰安:山东农业大学,2021.
[28]赵 涵.杨树水力学特性与生长速率及生物量的关系[D].杨
凌:西北农林科技大学,2021.
Copyright©博看网. All Rights Reserved.
不论是在工作效率,还是在准确度方面,深度学习
方法都有着巨大的优越性,使得基于深度学习方法
5-9]
,同时也在农业的目标检测效率得以显著提高
[
1的比例分割为训练集和验证集。番茄检测以4∶
任务分为以下3类:1类为成熟的番茄(Ripe_
tomatoes),指可以进行采摘的番茄;2类为未成熟的
Unripe_Tomatoes),指不能进行采摘的番茄;3番茄(
类为腐败的番茄(Diseased),指需要采摘并丢弃的
番茄。数据集类别标签数量见图1。
相关方面得到广泛的应用。目标检测算法大致分
为2种:一种是先生成候选框,再对候选框中的目标
进行分类的two-stage目标检测方法,包括R-
[10][11][12]
CNN、Fast-RCNN、Faster-RCNN等。此
类算法鲁棒性高,识别错误率较低,但其需要运行
较长的时间,难以满足实际生产的实时性要求。例
如,张文静等提出的改进FasterR-CNN算法对番
茄的识别方法,检测每张样本需要245ms的时
13]
间
[
;龙洁花等提出改进MaskR-CNN的方法,以
14]
CSP-Rest50为骨干,识别准确率达到90%
[
。另
一种是不出现候选框的one-stage目标检测方法,
[15][16]
包括SSD和YOLO等。此种方法不仅可以达
到第1种方法的准确度,并且识别速度快,完全可以
满足实时性的要求。例如,文斌等针对三七叶片病
17]
害改进YOLOv3,提升了病害检测精度和鲁棒性
[
;
1.2 YOLOv5s网络模型
YOLOv5s网络模型一般由输入端、躯干网络
(backbone)、颈部(neck)和头部(head)4个部分构
成(图2)。输入端通常由3个部分组成,分别为数
据增强、图像锚框运算与缩放。主干网络主要由卷
积(CONV)、卷积层与瓶颈层模块C3和空间金字塔
池化(SPPF)构成,负责图像特征的获取。颈部通过
金字塔构造实现特征融合。头部采用CIOU_Loss损
失函数和非极大值抑制(nonmaxi-mum
,简称NMS)进行预测。suppression
1.3 模型改进
1.3.1 K-Means++进行锚框优化 YOLOv5s网
OCO数据集得到的(表络的初始先验锚框是通过C
1)。COCO数据集共有80个类别,本研究中使用的
数据集与之存在比较大的差异,最终会影响网络的
整体性能。本研究采用了K-Means++算法对锚
框进行聚类分析,相比于K-Means算法,它进一步
优化了初始点的选取,首先通过随机选取一个样本
作为聚类中心,随后再计算每个样本到达聚类中心
的最短距离,然后再计算出每个样本被选为后一个
聚类中心的概率,概率公式为
P=
n
。
2
(x)
∑
D
i
i=1
2
D(x)
i
张兆国等提出对YOLOv4模型改良对复杂环境条件
下的马铃薯进行测试,其检测准确率达到
18]
914%
[
;黄彤镔等针对柑橘识别改进YOLOv5,添
19]
。加注意力机制改善了遮挡问题
[
上述检测手段不能实现对果蔬真正的实时检
测,检测效率低下,无法适应实际农业生产活动的
需要,同时针对当前对成熟、未成熟和腐坏的番茄
检测研究较少,本研究将以YOLOv5s算法为前提加
以完善,通过融合注意力等新内容,提出一种改进
型YOLOv5s的番茄识别方法,通过识别番茄品类自
动采摘,降低采摘成本,研究结果将为实现番茄自
动采摘提供技术支持。
1 材料与方法
1.1 数据集
本试验所用番茄图像数据集主要来源于公开
数据集和实地拍摄。为了接近番茄生长的真实环
境,图像数据包括番茄数量、密集度和遮挡度不同
的各种情况,同时为了剔除腐败的番茄,减少养分
的浪费,数据集还包括大量的腐败番茄的图像。尽
可能保证数据的准确性,还需要人为进行标注,在
标注的同时尽量将框内的背景减小到最小。为更
好地模拟真实情况,对图像数据进行线性数据增
强,通过旋转、缩放和添加噪声,增加样本的多样
性。通过数据增强后得到4428张图像,将数据集
(1)
其中:D(x)表示第i个样本与当前已有聚类中心之
i
间的最短距离;n为样本总数;P表示每个样本点被
选为下一个聚类中心的概率。
通过K-Means++聚类算法,产生不同大小和
Copyright©博看网. All Rights Reserved.
表1 原始锚框
特征图尺度
小尺度
中尺度
大尺度
锚框1
(10,13)
30,61)(
(116,90)
锚框2
(16,30)
(62,45)
(156,198)
锚框3
(33,23)
(59,119)
(373,326)
图像包括尺度不同的目标,故在检测网络中融入
transformer模块解决尺度问题,ViT图像处理流程如
图3所示。
ViT和普通Transformer在输入上有所区别,后
者将标记嵌入的一维序列作为输入,而前者在处理
二维图形时,要把图形xW×C重塑为一组
∈
H×
2
二维的扁平序列x(P),
∈
N×
C
表示维度,
p
H和W是原始图形的高和宽,C是图形通道数量,P
2
是每个图形块的高宽,N=HW/P既是图形块的总
数量的先验锚框,使之尽可能与实际目标框相匹
配,从而提高系统检测的准确度,最终确定的锚框
尺寸见表2。
表2 改进后锚框
特征图尺度
小尺度
中尺度
大尺度
锚框1
(33,41)
(103,152)
185,152)(
锚框2
(60,117)
(132,88)
(246,232)
锚框3
(72,60)
(138,246)
(282,338)
量,又是ViT输入序列的有效长度。从ViT的每个
层中产生一个恒定维度为D的特征向量,通过利用
可训练的线性投影可以把找平的像素块映射到D
0
维度上,如公式(2)所示。随后在图像序列(z
D
=
1.3.2 引入VisionTransformer 转换器
(transformer)已成为自然语言处理方面的主流模型,
在图像处理方面更是大放异彩。在目前以卷积神
经网络为核心的电脑视觉技术任务的重大背景下,
VisionTransformer(ViT)的应用对卷积神经网络的
地位产生了冲击。Dosovitskiy等将一个图像分割成
数个固定大小的图像块,并将其编码成序列向量作
ransformer输入,成功解决图像处理领域在为t
transformer中的输入问题。同时经过试验证明,当
预训练数据更丰富时,transformer在图像处理领域
20]
的性能会超越卷积神经网络
[
。本试验所用番茄
x)前加入一个具有学习能力的嵌入,其在
class
0
Transformer编码器输出时的状态z作图像表
L
用y
5)所示。示,如公式(
012N
z=[x;xE;xE;…;x]+E,
p
E
classpppos
(P·C)×D(N+1)×D
E,E;
∈
R
∈
R
pos
z′=MSA[LN(z)]+z,l=1…L;
ll-1l-1
2
(2)
(3)
(4)
(5)
zMLP[LN(z′)]+z′,l=1…L;
l
=
ll
0
y=LN(z)。
L
其中:E表示线性变换;E表示在pos处的线性变
pos
换;zz′表示操作完成后的第
l
表示第几个图像序列;
l
几个序列;MSA表示多头部自注意力;LN表示归一
Copyright©博看网. All Rights Reserved.
化;MLP表示多层感知机。
但Transformer也有不足之处,提取到的特征鲁
棒性较弱,经过研究证明,卷积神经网络能够通过
Transformer提高性能。本研究通过将C3模块中的
BottleNeck替换为TransformerBlock实现二者的有机
结合构成C3TB,C3和C3TB结构如图4所示。
ackbone末端使用全局注意力机制(global研究在B
[21]
attentionmechanism,简称GAM),使网络关注更
重要的区域,减少背景因素的影响,保留更多的特
征信息,提升网络检测准确度,GAM模块整体结构
如图5所示。
输入特征先经过通道注意力进行校正,再通过
空间注意力继续校正。图6是通道注意力结构图。
首先将纬度大小为C×W×H的输入特征经过三维
1.3.3 添加GAM注意力模块 注意力机制的添
加能使网络关注到图像中的关键点,有助于提高番
茄检测任务的性能。不论是挤压激励网络(squeeze
andexcitationnetwork,简称SENet),还是之后的卷
积注意力模块(convolutionalblockattentionmodule,
简称CBAM),都没有注意到空间-通道之间的相互
作用,而削弱了跨纬度的交互。鉴于上述问题,本
排列保存3个纬度上的信息,其中C是特征通道数
量,W和H分别是输入特征的宽和高。随后将输出
信息通过2层的多层感知器,第1层将C压缩为C/
R,R为压缩比,再经由第2层恢复到C,最后再经由
反三维排列操作,通过Sigmoid激活函数得到一个
新的特征图。
图7是空间注意力结构图,输入特征纬度大小
为C×W×H,通过2个卷积核为7×7的卷积层,实
现空间信息的融合,同时进行通道的编码和解码操
作,然后通过Sigmoid激活函数得到新的特征图。
1.3.4 特征金字塔网络改进 在卷积神经网络中,
图像特征容易受浅层网络的影响,而语义特征容易
受深层网络的影响,从而在目标检测中因卷积神经
网络的这个特性而影响精度。根据这些现象,特征
Copyright©博看网. All Rights Reserved.
金字塔网络(featurepyramidnetworks,简称FPN)随
之被提出,结构如图8-a所示,通过使不同维度的
特征图中含有尽可能多的语义信息,再通过上采样
把顶层信息与下层信息加以结合,从而实现相应的
目的,并且每层都是独立进行预测。但是FPN这种
设计有种缺陷,只增加了特征图的语义信息,定位
信息并不能进行传输。为了解决相关问题,又建立
了一个由底往顶的金塔,即与FPN操作相反的路径
聚合网络(pathaggregationnetwork,PANet),结构如
b所示。通过2种结构的结合,检测精度有了图8-
明显的提升。
加权双向特征金字塔网络(bidirectionalfeature
,简称BiFPN)最先在EfficientDet中pyramidnetwork
被提到,通过在输入与输出节点中间增加一个直接
相连路径,可以使得在不提高计算量的前提下,能
够融入更多需要的特性。与PANet中仅有一条自
顶向下和一条自底向上路线有所不同的是,把所有
双向路线视作一条特征网络层,并多次重复同一层
来进行更深层次的特性融合,BiFPN如图8-c所
示。在此操作中加快了计算的速度,如公式(6)
所示:
O=
∑
ω
i
×I。
i
i
ε
+
∑ω
j
j
Resize表示上取示第6节点自底向顶的输出特征;
样或下取样;Conv表示卷积处理。根据上述优势,
OLOv5s模型里的金字塔模块修改为BiFPN,以把Y
增强特征融合,并提高测速率。
1.4 试验环境
本试验使用的运行系统为Windows10,并使用
了Pytorch作为深度学习结构,详细试验环境设置见
。训练时优化器使用随机梯度下降法表3
(stochasticgradientdescent,简称SGD),初始的学习
率参数调整为0.01,余弦退火超参数设置成0.1,动
量因子调整为0.937,权重衰减系数最终确定为
00005。网络图像输入大小为640×640,Batchsize
设置为16,总训练300个epoch。此次试验于2022
年11月1日在江西理工大学电气学院315实验室
完成。
表3 试验环境配置
项目
CPU
GPU
系统环境
框架
语音
配置
TM
Intelorei9-9900CPU@3.10GHz16G
C
(6)
式中:权重
ω
,;I
≥
0
ω≥
0
ε
表
iji
为输入其中的特征;
示学习率;O表示结果。鉴于标量权重没有边界,为
保证训练稳定,应用softmax实现归一化运算。把
Backbone中P、P、P个不同尺度的特征都输
347
这3
入到BiFPN中,然后即可建立20×20、40×40、80×
80这3个纬度的预测分支。以P
6
节点为例说明融
合过程,如下所示:
Resize(P
ω
P+
ω
27
)
P=Conv
16
;
ωωε
1
+
2
+
td
6
GeForceRTX2070SUPER8G
Windows10
Pytorch1.11.0
Python3.8
CUDA11.3
[
inin
]
加速环境
(7)
1.5 评价指标
基于量化判断方法并分析试验结论,本研究选
择在目标测试中使用的精度(precision,简称P)、召
回率(recall,简称R)和均值平均精度(meanaverage
precision,简称mAP)作为相关衡量指标。P是用来
表示真正的正样本在检测结果为正样本中所占的
out
PConv
6
=
td
6
[
′P+′P+′Resize(P)
ωωω
3
。(8)
′+′+′+
ωωωε
123
in
16
td
26
out
5
]
式中:P表示第6节点自顶向底的中间特征;P表
示第2节点输入的特征;P表示第7节点输入的特
P表示第5节点自底向顶的输出特征;P表征;
out
5
out
6
in
7
in
6
Copyright©博看网. All Rights Reserved.
比例,R是表示被检测到的正样本在真正的正样本
中的占比,mAP表示各个类别平均精度的均值,相
关公式如下所示:
TP
P=;
TP+FP
TP
R=;
TP+FN
(9)
(10)
升,导致会对每幅图像检测更多的目标,从而帧率下
8,但仍快于SSD、Faster-RCNN和YOLOv4-降了1
tiny,满足实时性的要求。
表4 试验对比结果
模型
SSD
mAP
(%)
76.7
80.8
88.4
90.6
93.9
R
(%)
73.9
88.5
85.3
87.1
92.7
帧率
(帧/s)
18
9
52
90
72
∫
1
mAP=
∫
P(r)dr。
C
AP(r)dr;
P
=
0
1
0
1
(11)
(12)
Faster-RCNN
YOLOv4-tiny
YOLOv5s
改进的YOLOv5s
TP为正确分配的正样本,即番茄成熟并且检式中:
测结果正确;FP为分配错误的正样本,即番茄成熟
但被检测为不成熟或者腐败的;FN为分类错误的
负样本;AC为类别数。
P
表示平均精准度;
2 结果与分析
2.1 训练结果
将原始模型与改进后的模型在相同环境下训
练300轮,mAP曲线对比如图9所示,橘色曲线为
改进前,蓝色曲线为YOLOv5s改进后。其中横坐标
为300轮训练次数,纵坐标为mAP。由图9可知,在
训练30轮前模型收敛速度极快,经过100轮训练2
个模型都趋于稳定,同时改进后的模型在mAP上相
较于原模型得到明显提升,表明模型改进可行。
2.3 消融试验
对经过优化的YOLOv5s模型,通过消融对比试
验结果来证明每个改进模块对模型的优化效果,试
验结果见表5。其中改进模型1是通过使用K-
means++修改了先验锚框,从而使该锚框的匹配性
.3百分点;改进模型提高,均值平均精度也增加了1
2是改变金字塔网结构为加权双向金字塔网络,均
值平均精度增加1.7百分点;改进模型3是改变主
干网络增加GAM注意力,均值平均精度增加2.5百
分点;改进模型4是改变颈部网络C3结构为C3TB,
均值平均精度增加2.1百分点。把4个优化方案同
时融入到一个模型,均值平均精度相较于原
YOLOv5s模型整体增加33百分点。
表5 消融试验结果
模型
YOLOv5s
改进模型1
改进模型2
改进模型3
改进模型4
改进的YOLOv5s
K-means++BiFPNGAMC3TB
×
√
×
×
×
√
×
×
√
×
×
√
×
×
×
√
×
√
×
×
×
×
√
√
mAP(0.5)
(%)
90.6
91.9
92.3
93.1
92.7
93.9
2.4 试验结果分析
2.2 对比试验
为进一步评价本研究中改进方法对番茄的检
验能力,本试验将经过优化的YOLOv5s与SSD、
Faster-RCNN、YOLOv4-tiny以及YOLOv5s目标检
测方法进行比较,并采用相同的数据划分和试验设
置。由表4可知,改进的YOLOv5s算法在均值平均
精度和召回率上比其他算法有更好的表现,相较于
YOLOv5s,分别提升了3.3、5.6百分点,分别达到了
93.9%和92.7%。同时,由于本算法召回率的提
为更好地检验经优化后的YOLOv5s方法的测
试效果,选择了测试集中的一些图片进行了检测,
番茄测试效果如图10所示,图10-a是原始图像;
图10-b是原始YOLOv5s算法的检测结果,其中红
色箭头表示漏检的番茄;图10-c是优化后
YOLOv5s方法的测试结果。通过图10-b和图
10-c对比可知,原始YOLOv5s算法对图10-b中
红色箭头所指番茄漏检,改进后的YOLOv5s算法能
准确地检测出这些目标,并且置信度得到提高,能
Copyright©博看网. All Rights Reserved.
够捕捉到关键信息进而对遮挡目标也有较好的检
测效果。
3 讨论与结论
本研究根据目前对番茄的传统检测方法以及
对密集目标漏检的测量精度较差的情况,给出一个
更完善的YOLOv5s检测模型。通过使用
K-means++算法对自制番茄数据集提高先验锚
OLOv5s主干网络增加注意力模块、框匹配度、对Y
设计C3TB模块替换C3模块、优化特征金字塔网络
等提高模型的检测能力。通过对比试验证明,完善
后的YOLOv5s模型相比于原始的模型,mAP提升了
33%且置信度更高,对遮挡目标的辨识度提高减少
了漏检,虽然检测速率有所下降,但本模型精度能
够满足实际采摘的需求,为番茄自动采摘提供技术
支持。
参考文献:
[1]李君明,项朝阳,王孝宣,等.“十三五”我国番茄产业现状及展
望[J].中国蔬菜,2021(2):13-20.
[2]王海楠,弋景刚,张秀花.番茄采摘机器人识别与定位技术研究
进展[J].中国农机化学报,2020,41(5):188-196.
[3]王文杰,贡 亮,汪 韬,等.基于多源图像融合的自然环境下番
J].农业机械学报,2021,52(9):156-164.茄果实识别[
[4]阮承治,赵德安,陈 旭,等.双指型农业机器人抓取球形果蔬的
控制器设计[J].中国农机化学报,2019,40(11):169-175.
[5]陈科圻,朱志亮,邓小明,等.多尺度目标检测的深度学习研究综
述[J].软件学报,2021,32(4):1201-1227.
[6]赵立新,邢润哲,白银光,等.深度学习在目标检测的研究综述
[J].科学技术与工程,2021,21(30):12787-12795.
[7]包晓敏,王思琪.基于深度学习的目标检测算法综述[J].传感
2022,41(4):5-9.器与微系统,
[8]邵延华,张 铎,楚红雨,等.基于深度学习的YOLO目标检测综
述[J].电子与信息学报,2022,44(10):3697-3708.
[9]李 萍,邵 ,齐国红,等.基于跨深度学习模型的作物病害检
J].江苏农业科学,2022,50(8):193-199.测方法[
[10]GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarchiesfor
accurateobjectdetectionandsemanticsegmentation[C]//2014
IEEEConferenceonComputerVisionandPatternRecognition.
,2014:580-587.Columbus
[11]GirshickR.FastR-CNN[C]//2015IEEEInternational
ConferenceonComputerVision.Santiago,2016:1440-1448.
[12]RenSQ,HeKM,GirshickR,etal.FasterR-CNN:towardsreal-
[J].IEEEtimeobjectdetectionwithregionproposalnetworks
TransactionsonPatternAnalysisandMachineIntelligence,2017,39
(6):1137-1149.
[13]张文静,赵性祥,丁睿柔,等.基于FasterR-CNN算法的番茄
识别检测方法[J].山东农业大学学报(自然科学版),2021,52
(4):624-630.
[14]龙洁花,赵春江,林 森,等.改进MaskR-CNN的温室环境下
J].农业工程学报,2021,37不同成熟度番茄果实分割方法[
(18):100-108.
[15]LiuW,AnguelovD,ErhanD,etal.SSD:singleshotmultiBox
detector[C]//EuropeanConferenceonComputerVision.Cham:
Springer,2016:21-37.
[16]RedmonJ,DivvalaS,GirshickR,etal.Youonlylookonce:
unified,real-timeobjectdetection[C]//2016IEEEConferenceon
ComputerVisionandPatternRecognition.LasVegas,NV,USA.
,2016:779-788.IEEE
[17]文 斌,曹仁轩,杨启良,等.改进YOLOv3算法检测三七叶片
J].农业工程学报,2022,38(3):164-172.病害[
[18]张兆国,张振东,李加念,等.采用改进YoloV4模型检测复杂环
境下马铃薯[J].农业工程学报,2021,37(22):170-178.
[19]黄彤镔,黄河清,李 震,等.基于YOLOv5改进模型的柑橘果
J].华中农业大学学报,2022,41(4):170-177.实识别方法[
[20]DosovitskiyA,BeyerL,KolesnikovA,etal.Animageisworth
16x16words:transformersforimagerecognitionatscale[EB/OL].
2020:arXiv:2010.11929.https://arxiv.org/abs/2010.11929.
[21]LiuYC,ShaoZR,HoffmannN.Globalattentionmechanism:retain
[EB/OL].informationtoenhancechannel-spatialinteractions
2021:arXiv:2112.05561.https://arxiv.org/abs/2112.05561.
Copyright©博看网. All Rights Reserved.
2024年4月15日发(作者:镜安民)
doi:10.15889/j.issn.1002-1302.2023.15.026
杨国亮,王吉祥,聂子玲.基于改进型YOLOv5s的番茄实时识别方法[J].江苏农业科学,2023,51(15):187-193.
基于改进型YOLOv5s的番茄实时识别方法
杨国亮,王吉祥,聂子玲
(江西理工大学电气工程与自动化学院,江西赣州341000)
摘要:针对现有番茄检测精度低、没有品质检测和部署难度高等问题,提出基于YOLOv5s改进的番茄及品质实时
检测方法,并与原始YOLOv5模型及其他经典模型进行对比研究。结果表明,针对番茄大小不同的问题,采用K-
Means++算法重新计算先验锚框提高模型定位精度;在YOLOv5s主干网络末端添加GAM注意力模块,提升模型检测
精度并改善鲁棒性;应用加权双向特征金字塔网络(BiFPN)修改原有结构,完成更深层次的加权特征融合;颈部添加
转换器(transformer),增强网络对多尺度目标的检测能力。改进后的YOLOv5s番茄识别算法检测速度达到72帧/s。
在测试集中对番茄检测均值平均精度(mAP)达到93.9%,分别比SSD、Faster-RCNN、YOLOv4-Tiny、原始YOLOv5s
模型提高17.2、13.1、5.5、3.3百分点。本研究提出的番茄实时检测方法,在保持检测速度的同时,可降低背景因素干
扰,实现复杂场景下对番茄的精准识别,具有非常好的应用前景,为实现番茄自动采摘提供相应技术支持。
关键词:番茄检测;YOLOv5s;K-means++;GAM注意力模块;加权双向特征金字塔
中图分类号:TP391.41 文献标志码:A 文章编号:1002-1302(2023)15-0187-07
番茄作为世界上非常重要的蔬菜作物,每年全
球的总产量可以达到1.7亿t,其在蔬菜作物中常常
位居前列。我国新鲜番茄的出产量常年居于全球
首位,经过加工后的番茄产量则名列全球第二或第
1]
三
[
。随着我国社会老龄化程度的不断加深,用工
难问题也日渐凸现了出来。在番茄生产及销售链
中,采摘工作是一个非常重要的环节,目前采摘工
作仍然是以人工采摘为主,无论是工作环境还是劳
动强度都不尽人意,用时和用工成本也居高不下,
2-3]
番茄自动采摘应运而生
[
。国内外对果蔬自动采
摘的研究大同小异,先通过深度学习进行图像识和
收稿日期:2022-11-28
基金项目:江西省教育厅科技计划(编号:GJJ190450、GJJ180484)。
1973—),男,江西宜春人,博士,教授,主要从事人作者简介:杨国亮(
工智能和模式识别研究。E-mail:ygliang30@126.com。
通信作者:王吉祥,硕士研究生,主要从事模式识别研究。E-mail:
1661270181@qq.com。
4]
定位,再通过执行机构进行采摘
[
。提高对番茄及
其品质的检测,对采摘效率和存储运输都有非常重
要的意义。
由于计算机科学的进步,基于卷积式神经网络
的深度学习得以蓬勃发展。和传统机器学习相比,
櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄
[18]易 翔,张立福,吕 新,等.基于无人机高光谱融合连续投影
算法估算棉花地上部生物量[J].棉花学报,2021,33(3):
224-234.
[19]陶惠林,冯海宽,徐良骥,等.基于无人机高光谱遥感数据的冬小
J].江苏农业学报,2020,36(5):1154-1162.麦生物量估算[
[20]周 萌,韩晓旭,郑恒彪,等.基于参数化和非参数化法的棉花
生物量高光谱遥感估算[J].中国农业科学,2021,54(20):
4299-4311.
[21]石雅娇,陈鹏飞.基于无人机高光谱影像的玉米地上生物量反
J].中国农学通报,2019,35(17):117-123.演[
[22]邓 江,谷海斌,王 泽,等.基于无人机遥感的棉花主要生育
时期地上生物量估算及验证[J].干旱地区农业研究,2019,37
(5):55-61,69.
[23]刘 杨,冯海宽,黄 珏,等.基于无人机高光谱特征参数和株
高估算马铃薯地上生物量[J].光谱学与光谱分析,2021,41
(3):903-911.
[24]DongJW,XiaoXM,WagleP,etal.ComparisonoffourEVI-
basedmodelsforestimatinggrossprimaryproductionofmaizeand
soybeancroplandsandtallgrassprairieunderseveredrought[J].
,2015,162:154-168.RemoteSensingofEnvironment
[25]MajasalmiT,RautiainenM,StenbergP.Modeledandmeasured
fPARinaborealforest:validationandapplicationofanewmodel
[J].AgriculturalandForestMeteorology,2014,189/190:118-
124.
[26]李龙伟.基于时间序列遥感数据的毛竹林物候监测、分类和地
上生物量估测研究[D].杭州:浙江农林大学,2020.
[27]朱吉祥.基于光谱信息的夏玉米水氮状况诊断及产量评估
[D].泰安:山东农业大学,2021.
[28]赵 涵.杨树水力学特性与生长速率及生物量的关系[D].杨
凌:西北农林科技大学,2021.
Copyright©博看网. All Rights Reserved.
不论是在工作效率,还是在准确度方面,深度学习
方法都有着巨大的优越性,使得基于深度学习方法
5-9]
,同时也在农业的目标检测效率得以显著提高
[
1的比例分割为训练集和验证集。番茄检测以4∶
任务分为以下3类:1类为成熟的番茄(Ripe_
tomatoes),指可以进行采摘的番茄;2类为未成熟的
Unripe_Tomatoes),指不能进行采摘的番茄;3番茄(
类为腐败的番茄(Diseased),指需要采摘并丢弃的
番茄。数据集类别标签数量见图1。
相关方面得到广泛的应用。目标检测算法大致分
为2种:一种是先生成候选框,再对候选框中的目标
进行分类的two-stage目标检测方法,包括R-
[10][11][12]
CNN、Fast-RCNN、Faster-RCNN等。此
类算法鲁棒性高,识别错误率较低,但其需要运行
较长的时间,难以满足实际生产的实时性要求。例
如,张文静等提出的改进FasterR-CNN算法对番
茄的识别方法,检测每张样本需要245ms的时
13]
间
[
;龙洁花等提出改进MaskR-CNN的方法,以
14]
CSP-Rest50为骨干,识别准确率达到90%
[
。另
一种是不出现候选框的one-stage目标检测方法,
[15][16]
包括SSD和YOLO等。此种方法不仅可以达
到第1种方法的准确度,并且识别速度快,完全可以
满足实时性的要求。例如,文斌等针对三七叶片病
17]
害改进YOLOv3,提升了病害检测精度和鲁棒性
[
;
1.2 YOLOv5s网络模型
YOLOv5s网络模型一般由输入端、躯干网络
(backbone)、颈部(neck)和头部(head)4个部分构
成(图2)。输入端通常由3个部分组成,分别为数
据增强、图像锚框运算与缩放。主干网络主要由卷
积(CONV)、卷积层与瓶颈层模块C3和空间金字塔
池化(SPPF)构成,负责图像特征的获取。颈部通过
金字塔构造实现特征融合。头部采用CIOU_Loss损
失函数和非极大值抑制(nonmaxi-mum
,简称NMS)进行预测。suppression
1.3 模型改进
1.3.1 K-Means++进行锚框优化 YOLOv5s网
OCO数据集得到的(表络的初始先验锚框是通过C
1)。COCO数据集共有80个类别,本研究中使用的
数据集与之存在比较大的差异,最终会影响网络的
整体性能。本研究采用了K-Means++算法对锚
框进行聚类分析,相比于K-Means算法,它进一步
优化了初始点的选取,首先通过随机选取一个样本
作为聚类中心,随后再计算每个样本到达聚类中心
的最短距离,然后再计算出每个样本被选为后一个
聚类中心的概率,概率公式为
P=
n
。
2
(x)
∑
D
i
i=1
2
D(x)
i
张兆国等提出对YOLOv4模型改良对复杂环境条件
下的马铃薯进行测试,其检测准确率达到
18]
914%
[
;黄彤镔等针对柑橘识别改进YOLOv5,添
19]
。加注意力机制改善了遮挡问题
[
上述检测手段不能实现对果蔬真正的实时检
测,检测效率低下,无法适应实际农业生产活动的
需要,同时针对当前对成熟、未成熟和腐坏的番茄
检测研究较少,本研究将以YOLOv5s算法为前提加
以完善,通过融合注意力等新内容,提出一种改进
型YOLOv5s的番茄识别方法,通过识别番茄品类自
动采摘,降低采摘成本,研究结果将为实现番茄自
动采摘提供技术支持。
1 材料与方法
1.1 数据集
本试验所用番茄图像数据集主要来源于公开
数据集和实地拍摄。为了接近番茄生长的真实环
境,图像数据包括番茄数量、密集度和遮挡度不同
的各种情况,同时为了剔除腐败的番茄,减少养分
的浪费,数据集还包括大量的腐败番茄的图像。尽
可能保证数据的准确性,还需要人为进行标注,在
标注的同时尽量将框内的背景减小到最小。为更
好地模拟真实情况,对图像数据进行线性数据增
强,通过旋转、缩放和添加噪声,增加样本的多样
性。通过数据增强后得到4428张图像,将数据集
(1)
其中:D(x)表示第i个样本与当前已有聚类中心之
i
间的最短距离;n为样本总数;P表示每个样本点被
选为下一个聚类中心的概率。
通过K-Means++聚类算法,产生不同大小和
Copyright©博看网. All Rights Reserved.
表1 原始锚框
特征图尺度
小尺度
中尺度
大尺度
锚框1
(10,13)
30,61)(
(116,90)
锚框2
(16,30)
(62,45)
(156,198)
锚框3
(33,23)
(59,119)
(373,326)
图像包括尺度不同的目标,故在检测网络中融入
transformer模块解决尺度问题,ViT图像处理流程如
图3所示。
ViT和普通Transformer在输入上有所区别,后
者将标记嵌入的一维序列作为输入,而前者在处理
二维图形时,要把图形xW×C重塑为一组
∈
H×
2
二维的扁平序列x(P),
∈
N×
C
表示维度,
p
H和W是原始图形的高和宽,C是图形通道数量,P
2
是每个图形块的高宽,N=HW/P既是图形块的总
数量的先验锚框,使之尽可能与实际目标框相匹
配,从而提高系统检测的准确度,最终确定的锚框
尺寸见表2。
表2 改进后锚框
特征图尺度
小尺度
中尺度
大尺度
锚框1
(33,41)
(103,152)
185,152)(
锚框2
(60,117)
(132,88)
(246,232)
锚框3
(72,60)
(138,246)
(282,338)
量,又是ViT输入序列的有效长度。从ViT的每个
层中产生一个恒定维度为D的特征向量,通过利用
可训练的线性投影可以把找平的像素块映射到D
0
维度上,如公式(2)所示。随后在图像序列(z
D
=
1.3.2 引入VisionTransformer 转换器
(transformer)已成为自然语言处理方面的主流模型,
在图像处理方面更是大放异彩。在目前以卷积神
经网络为核心的电脑视觉技术任务的重大背景下,
VisionTransformer(ViT)的应用对卷积神经网络的
地位产生了冲击。Dosovitskiy等将一个图像分割成
数个固定大小的图像块,并将其编码成序列向量作
ransformer输入,成功解决图像处理领域在为t
transformer中的输入问题。同时经过试验证明,当
预训练数据更丰富时,transformer在图像处理领域
20]
的性能会超越卷积神经网络
[
。本试验所用番茄
x)前加入一个具有学习能力的嵌入,其在
class
0
Transformer编码器输出时的状态z作图像表
L
用y
5)所示。示,如公式(
012N
z=[x;xE;xE;…;x]+E,
p
E
classpppos
(P·C)×D(N+1)×D
E,E;
∈
R
∈
R
pos
z′=MSA[LN(z)]+z,l=1…L;
ll-1l-1
2
(2)
(3)
(4)
(5)
zMLP[LN(z′)]+z′,l=1…L;
l
=
ll
0
y=LN(z)。
L
其中:E表示线性变换;E表示在pos处的线性变
pos
换;zz′表示操作完成后的第
l
表示第几个图像序列;
l
几个序列;MSA表示多头部自注意力;LN表示归一
Copyright©博看网. All Rights Reserved.
化;MLP表示多层感知机。
但Transformer也有不足之处,提取到的特征鲁
棒性较弱,经过研究证明,卷积神经网络能够通过
Transformer提高性能。本研究通过将C3模块中的
BottleNeck替换为TransformerBlock实现二者的有机
结合构成C3TB,C3和C3TB结构如图4所示。
ackbone末端使用全局注意力机制(global研究在B
[21]
attentionmechanism,简称GAM),使网络关注更
重要的区域,减少背景因素的影响,保留更多的特
征信息,提升网络检测准确度,GAM模块整体结构
如图5所示。
输入特征先经过通道注意力进行校正,再通过
空间注意力继续校正。图6是通道注意力结构图。
首先将纬度大小为C×W×H的输入特征经过三维
1.3.3 添加GAM注意力模块 注意力机制的添
加能使网络关注到图像中的关键点,有助于提高番
茄检测任务的性能。不论是挤压激励网络(squeeze
andexcitationnetwork,简称SENet),还是之后的卷
积注意力模块(convolutionalblockattentionmodule,
简称CBAM),都没有注意到空间-通道之间的相互
作用,而削弱了跨纬度的交互。鉴于上述问题,本
排列保存3个纬度上的信息,其中C是特征通道数
量,W和H分别是输入特征的宽和高。随后将输出
信息通过2层的多层感知器,第1层将C压缩为C/
R,R为压缩比,再经由第2层恢复到C,最后再经由
反三维排列操作,通过Sigmoid激活函数得到一个
新的特征图。
图7是空间注意力结构图,输入特征纬度大小
为C×W×H,通过2个卷积核为7×7的卷积层,实
现空间信息的融合,同时进行通道的编码和解码操
作,然后通过Sigmoid激活函数得到新的特征图。
1.3.4 特征金字塔网络改进 在卷积神经网络中,
图像特征容易受浅层网络的影响,而语义特征容易
受深层网络的影响,从而在目标检测中因卷积神经
网络的这个特性而影响精度。根据这些现象,特征
Copyright©博看网. All Rights Reserved.
金字塔网络(featurepyramidnetworks,简称FPN)随
之被提出,结构如图8-a所示,通过使不同维度的
特征图中含有尽可能多的语义信息,再通过上采样
把顶层信息与下层信息加以结合,从而实现相应的
目的,并且每层都是独立进行预测。但是FPN这种
设计有种缺陷,只增加了特征图的语义信息,定位
信息并不能进行传输。为了解决相关问题,又建立
了一个由底往顶的金塔,即与FPN操作相反的路径
聚合网络(pathaggregationnetwork,PANet),结构如
b所示。通过2种结构的结合,检测精度有了图8-
明显的提升。
加权双向特征金字塔网络(bidirectionalfeature
,简称BiFPN)最先在EfficientDet中pyramidnetwork
被提到,通过在输入与输出节点中间增加一个直接
相连路径,可以使得在不提高计算量的前提下,能
够融入更多需要的特性。与PANet中仅有一条自
顶向下和一条自底向上路线有所不同的是,把所有
双向路线视作一条特征网络层,并多次重复同一层
来进行更深层次的特性融合,BiFPN如图8-c所
示。在此操作中加快了计算的速度,如公式(6)
所示:
O=
∑
ω
i
×I。
i
i
ε
+
∑ω
j
j
Resize表示上取示第6节点自底向顶的输出特征;
样或下取样;Conv表示卷积处理。根据上述优势,
OLOv5s模型里的金字塔模块修改为BiFPN,以把Y
增强特征融合,并提高测速率。
1.4 试验环境
本试验使用的运行系统为Windows10,并使用
了Pytorch作为深度学习结构,详细试验环境设置见
。训练时优化器使用随机梯度下降法表3
(stochasticgradientdescent,简称SGD),初始的学习
率参数调整为0.01,余弦退火超参数设置成0.1,动
量因子调整为0.937,权重衰减系数最终确定为
00005。网络图像输入大小为640×640,Batchsize
设置为16,总训练300个epoch。此次试验于2022
年11月1日在江西理工大学电气学院315实验室
完成。
表3 试验环境配置
项目
CPU
GPU
系统环境
框架
语音
配置
TM
Intelorei9-9900CPU@3.10GHz16G
C
(6)
式中:权重
ω
,;I
≥
0
ω≥
0
ε
表
iji
为输入其中的特征;
示学习率;O表示结果。鉴于标量权重没有边界,为
保证训练稳定,应用softmax实现归一化运算。把
Backbone中P、P、P个不同尺度的特征都输
347
这3
入到BiFPN中,然后即可建立20×20、40×40、80×
80这3个纬度的预测分支。以P
6
节点为例说明融
合过程,如下所示:
Resize(P
ω
P+
ω
27
)
P=Conv
16
;
ωωε
1
+
2
+
td
6
GeForceRTX2070SUPER8G
Windows10
Pytorch1.11.0
Python3.8
CUDA11.3
[
inin
]
加速环境
(7)
1.5 评价指标
基于量化判断方法并分析试验结论,本研究选
择在目标测试中使用的精度(precision,简称P)、召
回率(recall,简称R)和均值平均精度(meanaverage
precision,简称mAP)作为相关衡量指标。P是用来
表示真正的正样本在检测结果为正样本中所占的
out
PConv
6
=
td
6
[
′P+′P+′Resize(P)
ωωω
3
。(8)
′+′+′+
ωωωε
123
in
16
td
26
out
5
]
式中:P表示第6节点自顶向底的中间特征;P表
示第2节点输入的特征;P表示第7节点输入的特
P表示第5节点自底向顶的输出特征;P表征;
out
5
out
6
in
7
in
6
Copyright©博看网. All Rights Reserved.
比例,R是表示被检测到的正样本在真正的正样本
中的占比,mAP表示各个类别平均精度的均值,相
关公式如下所示:
TP
P=;
TP+FP
TP
R=;
TP+FN
(9)
(10)
升,导致会对每幅图像检测更多的目标,从而帧率下
8,但仍快于SSD、Faster-RCNN和YOLOv4-降了1
tiny,满足实时性的要求。
表4 试验对比结果
模型
SSD
mAP
(%)
76.7
80.8
88.4
90.6
93.9
R
(%)
73.9
88.5
85.3
87.1
92.7
帧率
(帧/s)
18
9
52
90
72
∫
1
mAP=
∫
P(r)dr。
C
AP(r)dr;
P
=
0
1
0
1
(11)
(12)
Faster-RCNN
YOLOv4-tiny
YOLOv5s
改进的YOLOv5s
TP为正确分配的正样本,即番茄成熟并且检式中:
测结果正确;FP为分配错误的正样本,即番茄成熟
但被检测为不成熟或者腐败的;FN为分类错误的
负样本;AC为类别数。
P
表示平均精准度;
2 结果与分析
2.1 训练结果
将原始模型与改进后的模型在相同环境下训
练300轮,mAP曲线对比如图9所示,橘色曲线为
改进前,蓝色曲线为YOLOv5s改进后。其中横坐标
为300轮训练次数,纵坐标为mAP。由图9可知,在
训练30轮前模型收敛速度极快,经过100轮训练2
个模型都趋于稳定,同时改进后的模型在mAP上相
较于原模型得到明显提升,表明模型改进可行。
2.3 消融试验
对经过优化的YOLOv5s模型,通过消融对比试
验结果来证明每个改进模块对模型的优化效果,试
验结果见表5。其中改进模型1是通过使用K-
means++修改了先验锚框,从而使该锚框的匹配性
.3百分点;改进模型提高,均值平均精度也增加了1
2是改变金字塔网结构为加权双向金字塔网络,均
值平均精度增加1.7百分点;改进模型3是改变主
干网络增加GAM注意力,均值平均精度增加2.5百
分点;改进模型4是改变颈部网络C3结构为C3TB,
均值平均精度增加2.1百分点。把4个优化方案同
时融入到一个模型,均值平均精度相较于原
YOLOv5s模型整体增加33百分点。
表5 消融试验结果
模型
YOLOv5s
改进模型1
改进模型2
改进模型3
改进模型4
改进的YOLOv5s
K-means++BiFPNGAMC3TB
×
√
×
×
×
√
×
×
√
×
×
√
×
×
×
√
×
√
×
×
×
×
√
√
mAP(0.5)
(%)
90.6
91.9
92.3
93.1
92.7
93.9
2.4 试验结果分析
2.2 对比试验
为进一步评价本研究中改进方法对番茄的检
验能力,本试验将经过优化的YOLOv5s与SSD、
Faster-RCNN、YOLOv4-tiny以及YOLOv5s目标检
测方法进行比较,并采用相同的数据划分和试验设
置。由表4可知,改进的YOLOv5s算法在均值平均
精度和召回率上比其他算法有更好的表现,相较于
YOLOv5s,分别提升了3.3、5.6百分点,分别达到了
93.9%和92.7%。同时,由于本算法召回率的提
为更好地检验经优化后的YOLOv5s方法的测
试效果,选择了测试集中的一些图片进行了检测,
番茄测试效果如图10所示,图10-a是原始图像;
图10-b是原始YOLOv5s算法的检测结果,其中红
色箭头表示漏检的番茄;图10-c是优化后
YOLOv5s方法的测试结果。通过图10-b和图
10-c对比可知,原始YOLOv5s算法对图10-b中
红色箭头所指番茄漏检,改进后的YOLOv5s算法能
准确地检测出这些目标,并且置信度得到提高,能
Copyright©博看网. All Rights Reserved.
够捕捉到关键信息进而对遮挡目标也有较好的检
测效果。
3 讨论与结论
本研究根据目前对番茄的传统检测方法以及
对密集目标漏检的测量精度较差的情况,给出一个
更完善的YOLOv5s检测模型。通过使用
K-means++算法对自制番茄数据集提高先验锚
OLOv5s主干网络增加注意力模块、框匹配度、对Y
设计C3TB模块替换C3模块、优化特征金字塔网络
等提高模型的检测能力。通过对比试验证明,完善
后的YOLOv5s模型相比于原始的模型,mAP提升了
33%且置信度更高,对遮挡目标的辨识度提高减少
了漏检,虽然检测速率有所下降,但本模型精度能
够满足实际采摘的需求,为番茄自动采摘提供技术
支持。
参考文献:
[1]李君明,项朝阳,王孝宣,等.“十三五”我国番茄产业现状及展
望[J].中国蔬菜,2021(2):13-20.
[2]王海楠,弋景刚,张秀花.番茄采摘机器人识别与定位技术研究
进展[J].中国农机化学报,2020,41(5):188-196.
[3]王文杰,贡 亮,汪 韬,等.基于多源图像融合的自然环境下番
J].农业机械学报,2021,52(9):156-164.茄果实识别[
[4]阮承治,赵德安,陈 旭,等.双指型农业机器人抓取球形果蔬的
控制器设计[J].中国农机化学报,2019,40(11):169-175.
[5]陈科圻,朱志亮,邓小明,等.多尺度目标检测的深度学习研究综
述[J].软件学报,2021,32(4):1201-1227.
[6]赵立新,邢润哲,白银光,等.深度学习在目标检测的研究综述
[J].科学技术与工程,2021,21(30):12787-12795.
[7]包晓敏,王思琪.基于深度学习的目标检测算法综述[J].传感
2022,41(4):5-9.器与微系统,
[8]邵延华,张 铎,楚红雨,等.基于深度学习的YOLO目标检测综
述[J].电子与信息学报,2022,44(10):3697-3708.
[9]李 萍,邵 ,齐国红,等.基于跨深度学习模型的作物病害检
J].江苏农业科学,2022,50(8):193-199.测方法[
[10]GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarchiesfor
accurateobjectdetectionandsemanticsegmentation[C]//2014
IEEEConferenceonComputerVisionandPatternRecognition.
,2014:580-587.Columbus
[11]GirshickR.FastR-CNN[C]//2015IEEEInternational
ConferenceonComputerVision.Santiago,2016:1440-1448.
[12]RenSQ,HeKM,GirshickR,etal.FasterR-CNN:towardsreal-
[J].IEEEtimeobjectdetectionwithregionproposalnetworks
TransactionsonPatternAnalysisandMachineIntelligence,2017,39
(6):1137-1149.
[13]张文静,赵性祥,丁睿柔,等.基于FasterR-CNN算法的番茄
识别检测方法[J].山东农业大学学报(自然科学版),2021,52
(4):624-630.
[14]龙洁花,赵春江,林 森,等.改进MaskR-CNN的温室环境下
J].农业工程学报,2021,37不同成熟度番茄果实分割方法[
(18):100-108.
[15]LiuW,AnguelovD,ErhanD,etal.SSD:singleshotmultiBox
detector[C]//EuropeanConferenceonComputerVision.Cham:
Springer,2016:21-37.
[16]RedmonJ,DivvalaS,GirshickR,etal.Youonlylookonce:
unified,real-timeobjectdetection[C]//2016IEEEConferenceon
ComputerVisionandPatternRecognition.LasVegas,NV,USA.
,2016:779-788.IEEE
[17]文 斌,曹仁轩,杨启良,等.改进YOLOv3算法检测三七叶片
J].农业工程学报,2022,38(3):164-172.病害[
[18]张兆国,张振东,李加念,等.采用改进YoloV4模型检测复杂环
境下马铃薯[J].农业工程学报,2021,37(22):170-178.
[19]黄彤镔,黄河清,李 震,等.基于YOLOv5改进模型的柑橘果
J].华中农业大学学报,2022,41(4):170-177.实识别方法[
[20]DosovitskiyA,BeyerL,KolesnikovA,etal.Animageisworth
16x16words:transformersforimagerecognitionatscale[EB/OL].
2020:arXiv:2010.11929.https://arxiv.org/abs/2010.11929.
[21]LiuYC,ShaoZR,HoffmannN.Globalattentionmechanism:retain
[EB/OL].informationtoenhancechannel-spatialinteractions
2021:arXiv:2112.05561.https://arxiv.org/abs/2112.05561.
Copyright©博看网. All Rights Reserved.