基于改进型YOLOv5s的番茄实时识别方法-USB迷|专注于互联网分享

2024年4月15日发(作者：镜安民)

ｄｏｉ：１０．１５８８９／ｊ．ｉｓｓｎ．１００２－１３０２．２０２３．１５．０２６

杨国亮，王吉祥，聂子玲．基于改进型ＹＯＬＯｖ５ｓ的番茄实时识别方法［Ｊ］．江苏农业科学，２０２３，５１（１５）：１８７－１９３．

基于改进型ＹＯＬＯｖ５ｓ的番茄实时识别方法

杨国亮，王吉祥，聂子玲

（江西理工大学电气工程与自动化学院，江西赣州３４１０００）

　　摘要：针对现有番茄检测精度低、没有品质检测和部署难度高等问题，提出基于ＹＯＬＯｖ５ｓ改进的番茄及品质实时

检测方法，并与原始ＹＯＬＯｖ５模型及其他经典模型进行对比研究。结果表明，针对番茄大小不同的问题，采用Ｋ－

Ｍｅａｎｓ＋＋算法重新计算先验锚框提高模型定位精度；在ＹＯＬＯｖ５ｓ主干网络末端添加ＧＡＭ注意力模块，提升模型检测

精度并改善鲁棒性；应用加权双向特征金字塔网络（ＢｉＦＰＮ）修改原有结构，完成更深层次的加权特征融合；颈部添加

转换器（ｔｒａｎｓｆｏｒｍｅｒ），增强网络对多尺度目标的检测能力。改进后的ＹＯＬＯｖ５ｓ番茄识别算法检测速度达到７２帧／ｓ。

在测试集中对番茄检测均值平均精度（ｍＡＰ）达到９３．９％，分别比ＳＳＤ、Ｆａｓｔｅｒ－ＲＣＮＮ、ＹＯＬＯｖ４－Ｔｉｎｙ、原始ＹＯＬＯｖ５ｓ

模型提高１７．２、１３．１、５．５、３．３百分点。本研究提出的番茄实时检测方法，在保持检测速度的同时，可降低背景因素干

扰，实现复杂场景下对番茄的精准识别，具有非常好的应用前景，为实现番茄自动采摘提供相应技术支持。

　　关键词：番茄检测；ＹＯＬＯｖ５ｓ；Ｋ－ｍｅａｎｓ＋＋；ＧＡＭ注意力模块；加权双向特征金字塔

　　中图分类号：ＴＰ３９１．４１　　文献标志码：Ａ　　文章编号：１００２－１３０２（２０２３）１５－０１８７－０７

　　番茄作为世界上非常重要的蔬菜作物，每年全

球的总产量可以达到１．７亿ｔ，其在蔬菜作物中常常

位居前列。我国新鲜番茄的出产量常年居于全球

首位，经过加工后的番茄产量则名列全球第二或第

１］

三

［

。随着我国社会老龄化程度的不断加深，用工

难问题也日渐凸现了出来。在番茄生产及销售链

中，采摘工作是一个非常重要的环节，目前采摘工

作仍然是以人工采摘为主，无论是工作环境还是劳

动强度都不尽人意，用时和用工成本也居高不下，

２－３］

番茄自动采摘应运而生

［

。国内外对果蔬自动采

摘的研究大同小异，先通过深度学习进行图像识和

收稿日期：２０２２－１１－２８

基金项目：江西省教育厅科技计划（编号：ＧＪＪ１９０４５０、ＧＪＪ１８０４８４）。

１９７３—），男，江西宜春人，博士，教授，主要从事人作者简介：杨国亮（

工智能和模式识别研究。Ｅ－ｍａｉｌ：ｙｇｌｉａｎｇ３０＠１２６．ｃｏｍ。

通信作者：王吉祥，硕士研究生，主要从事模式识别研究。Ｅ－ｍａｉｌ：

１６６１２７０１８１＠ｑｑ．ｃｏｍ。

４］

定位，再通过执行机构进行采摘

［

。提高对番茄及

其品质的检测，对采摘效率和存储运输都有非常重

要的意义。

由于计算机科学的进步，基于卷积式神经网络

的深度学习得以蓬勃发展。和传统机器学习相比，

櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄

［１８］易　翔，张立福，吕　新，等．基于无人机高光谱融合连续投影

算法估算棉花地上部生物量［Ｊ］．棉花学报，２０２１，３３（３）：

２２４－２３４．　

［１９］陶惠林，冯海宽，徐良骥，等．基于无人机高光谱遥感数据的冬小

Ｊ］．江苏农业学报，２０２０，３６（５）：１１５４－１１６２．麦生物量估算［

［２０］周　萌，韩晓旭，郑恒彪，等．基于参数化和非参数化法的棉花

生物量高光谱遥感估算［Ｊ］．中国农业科学，２０２１，５４（２０）：

４２９９－４３１１．

［２１］石雅娇，陈鹏飞．基于无人机高光谱影像的玉米地上生物量反

Ｊ］．中国农学通报，２０１９，３５（１７）：１１７－１２３．演［

［２２］邓　江，谷海斌，王　泽，等．基于无人机遥感的棉花主要生育

时期地上生物量估算及验证［Ｊ］．干旱地区农业研究，２０１９，３７

（５）：５５－６１，６９．

［２３］刘　杨，冯海宽，黄　珏，等．基于无人机高光谱特征参数和株

高估算马铃薯地上生物量［Ｊ］．光谱学与光谱分析，２０２１，４１

（３）：９０３－９１１．

［２４］ＤｏｎｇＪＷ，ＸｉａｏＸＭ，ＷａｇｌｅＰ，ｅｔａｌ．ＣｏｍｐａｒｉｓｏｎｏｆｆｏｕｒＥＶＩ－

ｂａｓｅｄｍｏｄｅｌｓｆｏｒｅｓｔｉｍａｔｉｎｇｇｒｏｓｓｐｒｉｍａｒｙｐｒｏｄｕｃｔｉｏｎｏｆｍａｉｚｅａｎｄ

ｓｏｙｂｅａｎｃｒｏｐｌａｎｄｓａｎｄｔａｌｌｇｒａｓｓｐｒａｉｒｉｅｕｎｄｅｒｓｅｖｅｒｅｄｒｏｕｇｈｔ［Ｊ］．

，２０１５，１６２：１５４－１６８．ＲｅｍｏｔｅＳｅｎｓｉｎｇｏｆＥｎｖｉｒｏｎｍｅｎｔ

［２５］ＭａｊａｓａｌｍｉＴ，ＲａｕｔｉａｉｎｅｎＭ，ＳｔｅｎｂｅｒｇＰ．Ｍｏｄｅｌｅｄａｎｄｍｅａｓｕｒｅｄ

ｆＰＡＲｉｎａｂｏｒｅａｌｆｏｒｅｓｔ：ｖａｌｉｄａｔｉｏｎａｎｄａｐｐｌｉｃａｔｉｏｎｏｆａｎｅｗｍｏｄｅｌ

［Ｊ］．ＡｇｒｉｃｕｌｔｕｒａｌａｎｄＦｏｒｅｓｔＭｅｔｅｏｒｏｌｏｇｙ，２０１４，１８９／１９０：１１８－

１２４．　

［２６］李龙伟．基于时间序列遥感数据的毛竹林物候监测、分类和地

上生物量估测研究［Ｄ］．杭州：浙江农林大学，２０２０．

［２７］朱吉祥．基于光谱信息的夏玉米水氮状况诊断及产量评估

［Ｄ］．泰安：山东农业大学，２０２１．

［２８］赵　涵．杨树水力学特性与生长速率及生物量的关系［Ｄ］．杨

凌：西北农林科技大学，２０２１．

不论是在工作效率，还是在准确度方面，深度学习

方法都有着巨大的优越性，使得基于深度学习方法

５－９］

，同时也在农业的目标检测效率得以显著提高

［

１的比例分割为训练集和验证集。番茄检测以４∶

任务分为以下３类：１类为成熟的番茄（Ｒｉｐｅ＿

ｔｏｍａｔｏｅｓ），指可以进行采摘的番茄；２类为未成熟的

Ｕｎｒｉｐｅ＿Ｔｏｍａｔｏｅｓ），指不能进行采摘的番茄；３番茄（

类为腐败的番茄（Ｄｉｓｅａｓｅｄ），指需要采摘并丢弃的

番茄。数据集类别标签数量见图１。

相关方面得到广泛的应用。目标检测算法大致分

为２种：一种是先生成候选框，再对候选框中的目标

进行分类的ｔｗｏ－ｓｔａｇｅ目标检测方法，包括Ｒ－

［１０］［１１］［１２］

ＣＮＮ、Ｆａｓｔ－ＲＣＮＮ、Ｆａｓｔｅｒ－ＲＣＮＮ等。此

类算法鲁棒性高，识别错误率较低，但其需要运行

较长的时间，难以满足实际生产的实时性要求。例

如，张文静等提出的改进ＦａｓｔｅｒＲ－ＣＮＮ算法对番

茄的识别方法，检测每张样本需要２４５ｍｓ的时

１３］

间

［

；龙洁花等提出改进ＭａｓｋＲ－ＣＮＮ的方法，以

１４］

ＣＳＰ－Ｒｅｓｔ５０为骨干，识别准确率达到９０％

［

。另

一种是不出现候选框的ｏｎｅ－ｓｔａｇｅ目标检测方法，

［１５］［１６］

包括ＳＳＤ和ＹＯＬＯ等。此种方法不仅可以达

到第１种方法的准确度，并且识别速度快，完全可以

满足实时性的要求。例如，文斌等针对三七叶片病

１７］

害改进ＹＯＬＯｖ３，提升了病害检测精度和鲁棒性

［

；

１．２　ＹＯＬＯｖ５ｓ网络模型

ＹＯＬＯｖ５ｓ网络模型一般由输入端、躯干网络

（ｂａｃｋｂｏｎｅ）、颈部（ｎｅｃｋ）和头部（ｈｅａｄ）４个部分构

成（图２）。输入端通常由３个部分组成，分别为数

据增强、图像锚框运算与缩放。主干网络主要由卷

积（ＣＯＮＶ）、卷积层与瓶颈层模块Ｃ３和空间金字塔

池化（ＳＰＰＦ）构成，负责图像特征的获取。颈部通过

金字塔构造实现特征融合。头部采用ＣＩＯＵ＿Ｌｏｓｓ损

失函数和非极大值抑制（ｎｏｎｍａｘｉ－ｍｕｍ

，简称ＮＭＳ）进行预测。ｓｕｐｐｒｅｓｓｉｏｎ

１．３　模型改进

１．３．１　Ｋ－Ｍｅａｎｓ＋＋进行锚框优化　ＹＯＬＯｖ５ｓ网

ＯＣＯ数据集得到的（表络的初始先验锚框是通过Ｃ

１）。ＣＯＣＯ数据集共有８０个类别，本研究中使用的

数据集与之存在比较大的差异，最终会影响网络的

整体性能。本研究采用了Ｋ－Ｍｅａｎｓ＋＋算法对锚

框进行聚类分析，相比于Ｋ－Ｍｅａｎｓ算法，它进一步

优化了初始点的选取，首先通过随机选取一个样本

作为聚类中心，随后再计算每个样本到达聚类中心

的最短距离，然后再计算出每个样本被选为后一个

聚类中心的概率，概率公式为

Ｐ＝

ｎ

。

２

（ｘ）

∑

Ｄ

ｉ

ｉ＝１

２

Ｄ（ｘ）

ｉ

张兆国等提出对ＹＯＬＯｖ４模型改良对复杂环境条件

下的马铃薯进行测试，其检测准确率达到

１８］

９１４％

［

；黄彤镔等针对柑橘识别改进ＹＯＬＯｖ５，添

１９］

。加注意力机制改善了遮挡问题

［

上述检测手段不能实现对果蔬真正的实时检

测，检测效率低下，无法适应实际农业生产活动的

需要，同时针对当前对成熟、未成熟和腐坏的番茄

检测研究较少，本研究将以ＹＯＬＯｖ５ｓ算法为前提加

以完善，通过融合注意力等新内容，提出一种改进

型ＹＯＬＯｖ５ｓ的番茄识别方法，通过识别番茄品类自

动采摘，降低采摘成本，研究结果将为实现番茄自

动采摘提供技术支持。

１　材料与方法

１．１　数据集

本试验所用番茄图像数据集主要来源于公开

数据集和实地拍摄。为了接近番茄生长的真实环

境，图像数据包括番茄数量、密集度和遮挡度不同

的各种情况，同时为了剔除腐败的番茄，减少养分

的浪费，数据集还包括大量的腐败番茄的图像。尽

可能保证数据的准确性，还需要人为进行标注，在

标注的同时尽量将框内的背景减小到最小。为更

好地模拟真实情况，对图像数据进行线性数据增

强，通过旋转、缩放和添加噪声，增加样本的多样

性。通过数据增强后得到４４２８张图像，将数据集

（１）

其中：Ｄ（ｘ）表示第ｉ个样本与当前已有聚类中心之

ｉ

间的最短距离；ｎ为样本总数；Ｐ表示每个样本点被

选为下一个聚类中心的概率。

通过Ｋ－Ｍｅａｎｓ＋＋聚类算法，产生不同大小和

表１　原始锚框

特征图尺度

小尺度

中尺度

大尺度

锚框１

（１０，１３）

３０，６１）（

（１１６，９０）

锚框２

（１６，３０）

（６２，４５）

（１５６，１９８）

锚框３

（３３，２３）

（５９，１１９）

（３７３，３２６）

图像包括尺度不同的目标，故在检测网络中融入

ｔｒａｎｓｆｏｒｍｅｒ模块解决尺度问题，ＶｉＴ图像处理流程如

图３所示。

　　ＶｉＴ和普通Ｔｒａｎｓｆｏｒｍｅｒ在输入上有所区别，后

者将标记嵌入的一维序列作为输入，而前者在处理

二维图形时，要把图形ｘＷ×Ｃ重塑为一组

∈

Ｈ×

２

二维的扁平序列ｘ（Ｐ），

∈

Ｎ×



Ｃ



表示维度，

ｐ

Ｈ和Ｗ是原始图形的高和宽，Ｃ是图形通道数量，Ｐ

２

是每个图形块的高宽，Ｎ＝ＨＷ／Ｐ既是图形块的总

数量的先验锚框，使之尽可能与实际目标框相匹

配，从而提高系统检测的准确度，最终确定的锚框

尺寸见表２。

表２　改进后锚框

特征图尺度

小尺度

中尺度

大尺度

锚框１

（３３，４１）

（１０３，１５２）

１８５，１５２）（

锚框２

（６０，１１７）

（１３２，８８）

（２４６，２３２）

锚框３

（７２，６０）

（１３８，２４６）

（２８２，３３８）

量，又是ＶｉＴ输入序列的有效长度。从ＶｉＴ的每个

层中产生一个恒定维度为Ｄ的特征向量，通过利用

可训练的线性投影可以把找平的像素块映射到Ｄ

０

维度上，如公式（２）所示。随后在图像序列（ｚ

Ｄ

＝

１．３．２　引入ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ　转换器

（ｔｒａｎｓｆｏｒｍｅｒ）已成为自然语言处理方面的主流模型，

在图像处理方面更是大放异彩。在目前以卷积神

经网络为核心的电脑视觉技术任务的重大背景下，

ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ（ＶｉＴ）的应用对卷积神经网络的

地位产生了冲击。Ｄｏｓｏｖｉｔｓｋｉｙ等将一个图像分割成

数个固定大小的图像块，并将其编码成序列向量作

ｒａｎｓｆｏｒｍｅｒ输入，成功解决图像处理领域在为ｔ

ｔｒａｎｓｆｏｒｍｅｒ中的输入问题。同时经过试验证明，当

预训练数据更丰富时，ｔｒａｎｓｆｏｒｍｅｒ在图像处理领域

２０］

的性能会超越卷积神经网络

［

。本试验所用番茄

ｘ）前加入一个具有学习能力的嵌入，其在

ｃｌａｓｓ

０

Ｔｒａｎｓｆｏｒｍｅｒ编码器输出时的状态ｚ作图像表

Ｌ

用ｙ

５）所示。示，如公式（

０１２Ｎ

ｚ＝［ｘ；ｘＥ；ｘＥ；…；ｘ］＋Ｅ，

ｐ

Ｅ

ｃｌａｓｓｐｐｐｏｓ

（Ｐ·Ｃ）×Ｄ（Ｎ＋１）×Ｄ

Ｅ，Ｅ；

∈

Ｒ

∈

Ｒ

ｐｏｓ

ｚ′＝ＭＳＡ［ＬＮ（ｚ）］＋ｚ，ｌ＝１…Ｌ；

ｌｌ－１ｌ－１

２

（２）

（３）

（４）

（５）

ｚＭＬＰ［ＬＮ（ｚ′）］＋ｚ′，ｌ＝１…Ｌ；

ｌ

＝

ｌｌ

０

ｙ＝ＬＮ（ｚ）。

Ｌ

其中：Ｅ表示线性变换；Ｅ表示在ｐｏｓ处的线性变

ｐｏｓ

换；ｚｚ′表示操作完成后的第

ｌ

表示第几个图像序列；

ｌ

几个序列；ＭＳＡ表示多头部自注意力；ＬＮ表示归一

化；ＭＬＰ表示多层感知机。

　　但Ｔｒａｎｓｆｏｒｍｅｒ也有不足之处，提取到的特征鲁

棒性较弱，经过研究证明，卷积神经网络能够通过

Ｔｒａｎｓｆｏｒｍｅｒ提高性能。本研究通过将Ｃ３模块中的

ＢｏｔｔｌｅＮｅｃｋ替换为ＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ实现二者的有机

结合构成Ｃ３ＴＢ，Ｃ３和Ｃ３ＴＢ结构如图４所示。

ａｃｋｂｏｎｅ末端使用全局注意力机制（ｇｌｏｂａｌ研究在Ｂ

［２１］

ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ，简称ＧＡＭ），使网络关注更

重要的区域，减少背景因素的影响，保留更多的特

征信息，提升网络检测准确度，ＧＡＭ模块整体结构

如图５所示。

　　输入特征先经过通道注意力进行校正，再通过

空间注意力继续校正。图６是通道注意力结构图。

首先将纬度大小为Ｃ×Ｗ×Ｈ的输入特征经过三维

１．３．３　添加ＧＡＭ注意力模块　注意力机制的添

加能使网络关注到图像中的关键点，有助于提高番

茄检测任务的性能。不论是挤压激励网络（ｓｑｕｅｅｚｅ

ａｎｄｅｘｃｉｔａｔｉｏｎｎｅｔｗｏｒｋ，简称ＳＥＮｅｔ），还是之后的卷

积注意力模块（ｃｏｎｖｏｌｕｔｉｏｎａｌｂｌｏｃｋａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ，

简称ＣＢＡＭ），都没有注意到空间－通道之间的相互

作用，而削弱了跨纬度的交互。鉴于上述问题，本

排列保存３个纬度上的信息，其中Ｃ是特征通道数

量，Ｗ和Ｈ分别是输入特征的宽和高。随后将输出

信息通过２层的多层感知器，第１层将Ｃ压缩为Ｃ／

Ｒ，Ｒ为压缩比，再经由第２层恢复到Ｃ，最后再经由

反三维排列操作，通过Ｓｉｇｍｏｉｄ激活函数得到一个

新的特征图。

　　图７是空间注意力结构图，输入特征纬度大小

为Ｃ×Ｗ×Ｈ，通过２个卷积核为７×７的卷积层，实

现空间信息的融合，同时进行通道的编码和解码操

作，然后通过Ｓｉｇｍｏｉｄ激活函数得到新的特征图。

１．３．４　特征金字塔网络改进　在卷积神经网络中，

图像特征容易受浅层网络的影响，而语义特征容易

受深层网络的影响，从而在目标检测中因卷积神经

网络的这个特性而影响精度。根据这些现象，特征

金字塔网络（ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ，简称ＦＰＮ）随

之被提出，结构如图８－ａ所示，通过使不同维度的

特征图中含有尽可能多的语义信息，再通过上采样

把顶层信息与下层信息加以结合，从而实现相应的

目的，并且每层都是独立进行预测。但是ＦＰＮ这种

设计有种缺陷，只增加了特征图的语义信息，定位

信息并不能进行传输。为了解决相关问题，又建立

了一个由底往顶的金塔，即与ＦＰＮ操作相反的路径

聚合网络（ｐａｔｈａｇｇｒｅｇａｔｉｏｎｎｅｔｗｏｒｋ，ＰＡＮｅｔ），结构如

ｂ所示。通过２种结构的结合，检测精度有了图８－

明显的提升。

加权双向特征金字塔网络（ｂｉｄｉｒｅｃｔｉｏｎａｌｆｅａｔｕｒｅ

，简称ＢｉＦＰＮ）最先在ＥｆｆｉｃｉｅｎｔＤｅｔ中ｐｙｒａｍｉｄｎｅｔｗｏｒｋ

被提到，通过在输入与输出节点中间增加一个直接

相连路径，可以使得在不提高计算量的前提下，能

够融入更多需要的特性。与ＰＡＮｅｔ中仅有一条自

顶向下和一条自底向上路线有所不同的是，把所有

双向路线视作一条特征网络层，并多次重复同一层

来进行更深层次的特性融合，ＢｉＦＰＮ如图８－ｃ所

示。在此操作中加快了计算的速度，如公式（６）

所示：

Ｏ＝

∑

ｉ

×Ｉ。

ｉ

＋

∑ω

ｊ

Ｒｅｓｉｚｅ表示上取示第６节点自底向顶的输出特征；

样或下取样；Ｃｏｎｖ表示卷积处理。根据上述优势，

ＯＬＯｖ５ｓ模型里的金字塔模块修改为ＢｉＦＰＮ，以把Ｙ

增强特征融合，并提高测速率。

１．４　试验环境

本试验使用的运行系统为Ｗｉｎｄｏｗｓ１０，并使用

了Ｐｙｔｏｒｃｈ作为深度学习结构，详细试验环境设置见

。训练时优化器使用随机梯度下降法表３

（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ，简称ＳＧＤ），初始的学习

率参数调整为０．０１，余弦退火超参数设置成０．１，动

量因子调整为０．９３７，权重衰减系数最终确定为

００００５。网络图像输入大小为６４０×６４０，Ｂａｔｃｈｓｉｚｅ

设置为１６，总训练３００个ｅｐｏｃｈ。此次试验于２０２２

年１１月１日在江西理工大学电气学院３１５实验室

完成。

表３　试验环境配置

项目

ＣＰＵ

ＧＰＵ

系统环境

框架

语音

配置

ＴＭ

Ｉｎｔｅｌｏｒｅｉ９－９９００ＣＰＵ＠３．１０ＧＨｚ１６Ｇ



Ｃ

（６）

式中：权重

，；Ｉ

≥

０

ω≥

０

表

ｉｊｉ

为输入其中的特征；

示学习率；Ｏ表示结果。鉴于标量权重没有边界，为

保证训练稳定，应用ｓｏｆｔｍａｘ实现归一化运算。把

Ｂａｃｋｂｏｎｅ中Ｐ、Ｐ、Ｐ个不同尺度的特征都输

３４７

这３

入到ＢｉＦＰＮ中，然后即可建立２０×２０、４０×４０、８０×

８０这３个纬度的预测分支。以Ｐ

６

节点为例说明融

合过程，如下所示：

Ｒｅｓｉｚｅ（Ｐ

Ｐ＋

２７

）

Ｐ＝Ｃｏｎｖ

１６

；

ωωε

１

＋

２

＋

ｔｄ

６

ＧｅＦｏｒｃｅＲＴＸ２０７０ＳＵＰＥＲ８Ｇ

Ｗｉｎｄｏｗｓ１０

Ｐｙｔｏｒｃｈ１．１１．０

Ｐｙｔｈｏｎ３．８

ＣＵＤＡ１１．３

[

ｉｎｉｎ

]

加速环境

（７）

１．５　评价指标

基于量化判断方法并分析试验结论，本研究选

择在目标测试中使用的精度（ｐｒｅｃｉｓｉｏｎ，简称Ｐ）、召

回率（ｒｅｃａｌｌ，简称Ｒ）和均值平均精度（ｍｅａｎａｖｅｒａｇｅ

ｐｒｅｃｉｓｉｏｎ，简称ｍＡＰ）作为相关衡量指标。Ｐ是用来

表示真正的正样本在检测结果为正样本中所占的

ｏｕｔ

ＰＣｏｎｖ

６

＝

ｔｄ

６

[

′Ｐ＋′Ｐ＋′Ｒｅｓｉｚｅ（Ｐ）

ωωω

３

。（８）

′＋′＋′＋

ωωωε

１２３

ｉｎ

１６

ｔｄ

２６

ｏｕｔ

５

]

式中：Ｐ表示第６节点自顶向底的中间特征；Ｐ表

示第２节点输入的特征；Ｐ表示第７节点输入的特

Ｐ表示第５节点自底向顶的输出特征；Ｐ表征；

ｏｕｔ

５

ｏｕｔ

６

ｉｎ

７

ｉｎ

６

比例，Ｒ是表示被检测到的正样本在真正的正样本

中的占比，ｍＡＰ表示各个类别平均精度的均值，相

关公式如下所示：

ＴＰ

Ｐ＝；

ＴＰ＋ＦＰ

ＴＰ

Ｒ＝；

ＴＰ＋ＦＮ

（９）

（１０）

升，导致会对每幅图像检测更多的目标，从而帧率下

８，但仍快于ＳＳＤ、Ｆａｓｔｅｒ－ＲＣＮＮ和ＹＯＬＯｖ４－降了１

ｔｉｎｙ，满足实时性的要求。

表４　试验对比结果

模型

ＳＳＤ

ｍＡＰ

（％）

７６．７

８０．８

８８．４

９０．６

９３．９

Ｒ

（％）

７３．９

８８．５

８５．３

８７．１

９２．７

帧率

（帧／ｓ）

１８

９

５２

９０

７２

∫

１

ｍＡＰ＝

∫

Ｐ（ｒ）ｄｒ。

Ｃ

ＡＰ（ｒ）ｄｒ；

Ｐ

＝

０

１

０

１

（１１）

（１２）

Ｆａｓｔｅｒ－ＲＣＮＮ

ＹＯＬＯｖ４－ｔｉｎｙ

ＹＯＬＯｖ５ｓ

改进的ＹＯＬＯｖ５ｓ

ＴＰ为正确分配的正样本，即番茄成熟并且检式中：

测结果正确；ＦＰ为分配错误的正样本，即番茄成熟

但被检测为不成熟或者腐败的；ＦＮ为分类错误的

负样本；ＡＣ为类别数。

Ｐ

表示平均精准度；

２　结果与分析

２．１　训练结果

将原始模型与改进后的模型在相同环境下训

练３００轮，ｍＡＰ曲线对比如图９所示，橘色曲线为

改进前，蓝色曲线为ＹＯＬＯｖ５ｓ改进后。其中横坐标

为３００轮训练次数，纵坐标为ｍＡＰ。由图９可知，在

训练３０轮前模型收敛速度极快，经过１００轮训练２

个模型都趋于稳定，同时改进后的模型在ｍＡＰ上相

较于原模型得到明显提升，表明模型改进可行。

２．３　消融试验

对经过优化的ＹＯＬＯｖ５ｓ模型，通过消融对比试

验结果来证明每个改进模块对模型的优化效果，试

验结果见表５。其中改进模型１是通过使用Ｋ－

ｍｅａｎｓ＋＋修改了先验锚框，从而使该锚框的匹配性

．３百分点；改进模型提高，均值平均精度也增加了１

２是改变金字塔网结构为加权双向金字塔网络，均

值平均精度增加１．７百分点；改进模型３是改变主

干网络增加ＧＡＭ注意力，均值平均精度增加２．５百

分点；改进模型４是改变颈部网络Ｃ３结构为Ｃ３ＴＢ，

均值平均精度增加２．１百分点。把４个优化方案同

时融入到一个模型，均值平均精度相较于原

ＹＯＬＯｖ５ｓ模型整体增加３３百分点。

表５　消融试验结果

模型

ＹＯＬＯｖ５ｓ

改进模型１

改进模型２

改进模型３

改进模型４

改进的ＹＯＬＯｖ５ｓ

Ｋ－ｍｅａｎｓ＋＋ＢｉＦＰＮＧＡＭＣ３ＴＢ

√

ｍＡＰ（０．５）

（％）

９０．６

９１．９

９２．３

９３．１

９２．７

９３．９

２．４　试验结果分析

２．２　对比试验

为进一步评价本研究中改进方法对番茄的检

验能力，本试验将经过优化的ＹＯＬＯｖ５ｓ与ＳＳＤ、

Ｆａｓｔｅｒ－ＲＣＮＮ、ＹＯＬＯｖ４－ｔｉｎｙ以及ＹＯＬＯｖ５ｓ目标检

测方法进行比较，并采用相同的数据划分和试验设

置。由表４可知，改进的ＹＯＬＯｖ５ｓ算法在均值平均

精度和召回率上比其他算法有更好的表现，相较于

ＹＯＬＯｖ５ｓ，分别提升了３．３、５．６百分点，分别达到了

９３．９％和９２．７％。同时，由于本算法召回率的提

为更好地检验经优化后的ＹＯＬＯｖ５ｓ方法的测

试效果，选择了测试集中的一些图片进行了检测，

番茄测试效果如图１０所示，图１０－ａ是原始图像；

图１０－ｂ是原始ＹＯＬＯｖ５ｓ算法的检测结果，其中红

色箭头表示漏检的番茄；图１０－ｃ是优化后

ＹＯＬＯｖ５ｓ方法的测试结果。通过图１０－ｂ和图

１０－ｃ对比可知，原始ＹＯＬＯｖ５ｓ算法对图１０－ｂ中

红色箭头所指番茄漏检，改进后的ＹＯＬＯｖ５ｓ算法能

准确地检测出这些目标，并且置信度得到提高，能

够捕捉到关键信息进而对遮挡目标也有较好的检

测效果。

３　讨论与结论

本研究根据目前对番茄的传统检测方法以及

对密集目标漏检的测量精度较差的情况，给出一个

更完善的ＹＯＬＯｖ５ｓ检测模型。通过使用

Ｋ－ｍｅａｎｓ＋＋算法对自制番茄数据集提高先验锚

ＯＬＯｖ５ｓ主干网络增加注意力模块、框匹配度、对Ｙ

设计Ｃ３ＴＢ模块替换Ｃ３模块、优化特征金字塔网络

等提高模型的检测能力。通过对比试验证明，完善

后的ＹＯＬＯｖ５ｓ模型相比于原始的模型，ｍＡＰ提升了

３３％且置信度更高，对遮挡目标的辨识度提高减少

了漏检，虽然检测速率有所下降，但本模型精度能

够满足实际采摘的需求，为番茄自动采摘提供技术

支持。

参考文献：

［１］李君明，项朝阳，王孝宣，等．“十三五”我国番茄产业现状及展

望［Ｊ］．中国蔬菜，２０２１（２）：１３－２０．

［２］王海楠，弋景刚，张秀花．番茄采摘机器人识别与定位技术研究

进展［Ｊ］．中国农机化学报，２０２０，４１（５）：１８８－１９６．

［３］王文杰，贡　亮，汪　韬，等．基于多源图像融合的自然环境下番

Ｊ］．农业机械学报，２０２１，５２（９）：１５６－１６４．茄果实识别［

［４］阮承治，赵德安，陈　旭，等．双指型农业机器人抓取球形果蔬的

控制器设计［Ｊ］．中国农机化学报，２０１９，４０（１１）：１６９－１７５．

［５］陈科圻，朱志亮，邓小明，等．多尺度目标检测的深度学习研究综

述［Ｊ］．软件学报，２０２１，３２（４）：１２０１－１２２７．

［６］赵立新，邢润哲，白银光，等．深度学习在目标检测的研究综述

［Ｊ］．科学技术与工程，２０２１，２１（３０）：１２７８７－１２７９５．

［７］包晓敏，王思琪．基于深度学习的目标检测算法综述［Ｊ］．传感

２０２２，４１（４）：５－９．器与微系统，

［８］邵延华，张　铎，楚红雨，等．基于深度学习的ＹＯＬＯ目标检测综

述［Ｊ］．电子与信息学报，２０２２，４４（１０）：３６９７－３７０８．

［９］李　萍，邵　，齐国红，等．基于跨深度学习模型的作物病害检

Ｊ］．江苏农业科学，２０２２，５０（８）：１９３－１９９．测方法［

［１０］ＧｉｒｓｈｉｃｋＲ，ＤｏｎａｈｕｅＪ，ＤａｒｒｅｌｌＴ，ｅｔａｌ．Ｒｉｃｈｆｅａｔｕｒｅｈｉｅｒａｒｃｈｉｅｓｆｏｒ

ａｃｃｕｒａｔｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ［Ｃ］／／２０１４

ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．

，２０１４：５８０－５８７．Ｃｏｌｕｍｂｕｓ

［１１］ＧｉｒｓｈｉｃｋＲ．ＦａｓｔＲ－ＣＮＮ［Ｃ］／／２０１５ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌ

ＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｓａｎｔｉａｇｏ，２０１６：１４４０－１４４８．

［１２］ＲｅｎＳＱ，ＨｅＫＭ，ＧｉｒｓｈｉｃｋＲ，ｅｔａｌ．ＦａｓｔｅｒＲ－ＣＮＮ：ｔｏｗａｒｄｓｒｅａｌ－

［Ｊ］．ＩＥＥＥｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋｓ

ＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２０１７，３９

（６）：１１３７－１１４９．

［１３］张文静，赵性祥，丁睿柔，等．基于ＦａｓｔｅｒＲ－ＣＮＮ算法的番茄

识别检测方法［Ｊ］．山东农业大学学报（自然科学版），２０２１，５２

（４）：６２４－６３０．

［１４］龙洁花，赵春江，林　森，等．改进ＭａｓｋＲ－ＣＮＮ的温室环境下

Ｊ］．农业工程学报，２０２１，３７不同成熟度番茄果实分割方法［

（１８）：１００－１０８．

［１５］ＬｉｕＷ，ＡｎｇｕｅｌｏｖＤ，ＥｒｈａｎＤ，ｅｔａｌ．ＳＳＤ：ｓｉｎｇｌｅｓｈｏｔｍｕｌｔｉＢｏｘ

ｄｅｔｅｃｔｏｒ［Ｃ］／／ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｃｈａｍ：

Ｓｐｒｉｎｇｅｒ，２０１６：２１－３７．

［１６］ＲｅｄｍｏｎＪ，ＤｉｖｖａｌａＳ，ＧｉｒｓｈｉｃｋＲ，ｅｔａｌ．Ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ：

ｕｎｉｆｉｅｄ，ｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｃ］／／２０１６ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎ

ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＬａｓＶｅｇａｓ，ＮＶ，ＵＳＡ．

，２０１６：７７９－７８８．ＩＥＥＥ

［１７］文　斌，曹仁轩，杨启良，等．改进ＹＯＬＯｖ３算法检测三七叶片

Ｊ］．农业工程学报，２０２２，３８（３）：１６４－１７２．病害［

［１８］张兆国，张振东，李加念，等．采用改进ＹｏｌｏＶ４模型检测复杂环

境下马铃薯［Ｊ］．农业工程学报，２０２１，３７（２２）：１７０－１７８．

［１９］黄彤镔，黄河清，李　震，等．基于ＹＯＬＯｖ５改进模型的柑橘果

Ｊ］．华中农业大学学报，２０２２，４１（４）：１７０－１７７．实识别方法［

［２０］ＤｏｓｏｖｉｔｓｋｉｙＡ，ＢｅｙｅｒＬ，ＫｏｌｅｓｎｉｋｏｖＡ，ｅｔａｌ．Ａｎｉｍａｇｅｉｓｗｏｒｔｈ

１６ｘ１６ｗｏｒｄｓ：ｔｒａｎｓｆｏｒｍｅｒｓｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎａｔｓｃａｌｅ［ＥＢ／ＯＬ］．

２０２０：ａｒＸｉｖ：２０１０．１１９２９．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２０１０．１１９２９．

［２１］ＬｉｕＹＣ，ＳｈａｏＺＲ，ＨｏｆｆｍａｎｎＮ．Ｇｌｏｂａｌａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ：ｒｅｔａｉｎ

［ＥＢ／ＯＬ］．ｉｎｆｏｒｍａｔｉｏｎｔｏｅｎｈａｎｃｅｃｈａｎｎｅｌ－ｓｐａｔｉａｌｉｎｔｅｒａｃｔｉｏｎｓ

２０２１：ａｒＸｉｖ：２１１２．０５５６１．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２１１２．０５５６１．

2024年4月15日发(作者：镜安民)

ｄｏｉ：１０．１５８８９／ｊ．ｉｓｓｎ．１００２－１３０２．２０２３．１５．０２６

杨国亮，王吉祥，聂子玲．基于改进型ＹＯＬＯｖ５ｓ的番茄实时识别方法［Ｊ］．江苏农业科学，２０２３，５１（１５）：１８７－１９３．

基于改进型ＹＯＬＯｖ５ｓ的番茄实时识别方法

杨国亮，王吉祥，聂子玲

（江西理工大学电气工程与自动化学院，江西赣州３４１０００）

　　摘要：针对现有番茄检测精度低、没有品质检测和部署难度高等问题，提出基于ＹＯＬＯｖ５ｓ改进的番茄及品质实时

检测方法，并与原始ＹＯＬＯｖ５模型及其他经典模型进行对比研究。结果表明，针对番茄大小不同的问题，采用Ｋ－

Ｍｅａｎｓ＋＋算法重新计算先验锚框提高模型定位精度；在ＹＯＬＯｖ５ｓ主干网络末端添加ＧＡＭ注意力模块，提升模型检测

精度并改善鲁棒性；应用加权双向特征金字塔网络（ＢｉＦＰＮ）修改原有结构，完成更深层次的加权特征融合；颈部添加

转换器（ｔｒａｎｓｆｏｒｍｅｒ），增强网络对多尺度目标的检测能力。改进后的ＹＯＬＯｖ５ｓ番茄识别算法检测速度达到７２帧／ｓ。

模型提高１７．２、１３．１、５．５、３．３百分点。本研究提出的番茄实时检测方法，在保持检测速度的同时，可降低背景因素干

扰，实现复杂场景下对番茄的精准识别，具有非常好的应用前景，为实现番茄自动采摘提供相应技术支持。

　　关键词：番茄检测；ＹＯＬＯｖ５ｓ；Ｋ－ｍｅａｎｓ＋＋；ＧＡＭ注意力模块；加权双向特征金字塔

　　中图分类号：ＴＰ３９１．４１　　文献标志码：Ａ　　文章编号：１００２－１３０２（２０２３）１５－０１８７－０７

　　番茄作为世界上非常重要的蔬菜作物，每年全

球的总产量可以达到１．７亿ｔ，其在蔬菜作物中常常

位居前列。我国新鲜番茄的出产量常年居于全球

首位，经过加工后的番茄产量则名列全球第二或第

１］

三

［

。随着我国社会老龄化程度的不断加深，用工

难问题也日渐凸现了出来。在番茄生产及销售链

中，采摘工作是一个非常重要的环节，目前采摘工

作仍然是以人工采摘为主，无论是工作环境还是劳

动强度都不尽人意，用时和用工成本也居高不下，

２－３］

番茄自动采摘应运而生

［

。国内外对果蔬自动采

摘的研究大同小异，先通过深度学习进行图像识和

收稿日期：２０２２－１１－２８

基金项目：江西省教育厅科技计划（编号：ＧＪＪ１９０４５０、ＧＪＪ１８０４８４）。

１９７３—），男，江西宜春人，博士，教授，主要从事人作者简介：杨国亮（

工智能和模式识别研究。Ｅ－ｍａｉｌ：ｙｇｌｉａｎｇ３０＠１２６．ｃｏｍ。

通信作者：王吉祥，硕士研究生，主要从事模式识别研究。Ｅ－ｍａｉｌ：

１６６１２７０１８１＠ｑｑ．ｃｏｍ。

４］

定位，再通过执行机构进行采摘

［

。提高对番茄及

其品质的检测，对采摘效率和存储运输都有非常重

要的意义。

由于计算机科学的进步，基于卷积式神经网络

的深度学习得以蓬勃发展。和传统机器学习相比，

櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄

［１８］易　翔，张立福，吕　新，等．基于无人机高光谱融合连续投影

算法估算棉花地上部生物量［Ｊ］．棉花学报，２０２１，３３（３）：

２２４－２３４．　

［１９］陶惠林，冯海宽，徐良骥，等．基于无人机高光谱遥感数据的冬小

Ｊ］．江苏农业学报，２０２０，３６（５）：１１５４－１１６２．麦生物量估算［

［２０］周　萌，韩晓旭，郑恒彪，等．基于参数化和非参数化法的棉花

生物量高光谱遥感估算［Ｊ］．中国农业科学，２０２１，５４（２０）：

４２９９－４３１１．

［２１］石雅娇，陈鹏飞．基于无人机高光谱影像的玉米地上生物量反

Ｊ］．中国农学通报，２０１９，３５（１７）：１１７－１２３．演［

［２２］邓　江，谷海斌，王　泽，等．基于无人机遥感的棉花主要生育

时期地上生物量估算及验证［Ｊ］．干旱地区农业研究，２０１９，３７

（５）：５５－６１，６９．

［２３］刘　杨，冯海宽，黄　珏，等．基于无人机高光谱特征参数和株

高估算马铃薯地上生物量［Ｊ］．光谱学与光谱分析，２０２１，４１

（３）：９０３－９１１．

［２４］ＤｏｎｇＪＷ，ＸｉａｏＸＭ，ＷａｇｌｅＰ，ｅｔａｌ．ＣｏｍｐａｒｉｓｏｎｏｆｆｏｕｒＥＶＩ－

ｂａｓｅｄｍｏｄｅｌｓｆｏｒｅｓｔｉｍａｔｉｎｇｇｒｏｓｓｐｒｉｍａｒｙｐｒｏｄｕｃｔｉｏｎｏｆｍａｉｚｅａｎｄ

ｓｏｙｂｅａｎｃｒｏｐｌａｎｄｓａｎｄｔａｌｌｇｒａｓｓｐｒａｉｒｉｅｕｎｄｅｒｓｅｖｅｒｅｄｒｏｕｇｈｔ［Ｊ］．

，２０１５，１６２：１５４－１６８．ＲｅｍｏｔｅＳｅｎｓｉｎｇｏｆＥｎｖｉｒｏｎｍｅｎｔ

［２５］ＭａｊａｓａｌｍｉＴ，ＲａｕｔｉａｉｎｅｎＭ，ＳｔｅｎｂｅｒｇＰ．Ｍｏｄｅｌｅｄａｎｄｍｅａｓｕｒｅｄ

ｆＰＡＲｉｎａｂｏｒｅａｌｆｏｒｅｓｔ：ｖａｌｉｄａｔｉｏｎａｎｄａｐｐｌｉｃａｔｉｏｎｏｆａｎｅｗｍｏｄｅｌ

［Ｊ］．ＡｇｒｉｃｕｌｔｕｒａｌａｎｄＦｏｒｅｓｔＭｅｔｅｏｒｏｌｏｇｙ，２０１４，１８９／１９０：１１８－

１２４．　

［２６］李龙伟．基于时间序列遥感数据的毛竹林物候监测、分类和地

上生物量估测研究［Ｄ］．杭州：浙江农林大学，２０２０．

［２７］朱吉祥．基于光谱信息的夏玉米水氮状况诊断及产量评估

［Ｄ］．泰安：山东农业大学，２０２１．

［２８］赵　涵．杨树水力学特性与生长速率及生物量的关系［Ｄ］．杨

凌：西北农林科技大学，２０２１．

不论是在工作效率，还是在准确度方面，深度学习

方法都有着巨大的优越性，使得基于深度学习方法

５－９］

，同时也在农业的目标检测效率得以显著提高

［

１的比例分割为训练集和验证集。番茄检测以４∶

任务分为以下３类：１类为成熟的番茄（Ｒｉｐｅ＿

ｔｏｍａｔｏｅｓ），指可以进行采摘的番茄；２类为未成熟的

Ｕｎｒｉｐｅ＿Ｔｏｍａｔｏｅｓ），指不能进行采摘的番茄；３番茄（

类为腐败的番茄（Ｄｉｓｅａｓｅｄ），指需要采摘并丢弃的

番茄。数据集类别标签数量见图１。

相关方面得到广泛的应用。目标检测算法大致分

为２种：一种是先生成候选框，再对候选框中的目标

进行分类的ｔｗｏ－ｓｔａｇｅ目标检测方法，包括Ｒ－

［１０］［１１］［１２］

ＣＮＮ、Ｆａｓｔ－ＲＣＮＮ、Ｆａｓｔｅｒ－ＲＣＮＮ等。此

类算法鲁棒性高，识别错误率较低，但其需要运行

较长的时间，难以满足实际生产的实时性要求。例

如，张文静等提出的改进ＦａｓｔｅｒＲ－ＣＮＮ算法对番

茄的识别方法，检测每张样本需要２４５ｍｓ的时

１３］

间

［

；龙洁花等提出改进ＭａｓｋＲ－ＣＮＮ的方法，以

１４］

ＣＳＰ－Ｒｅｓｔ５０为骨干，识别准确率达到９０％

［

。另

一种是不出现候选框的ｏｎｅ－ｓｔａｇｅ目标检测方法，

［１５］［１６］

包括ＳＳＤ和ＹＯＬＯ等。此种方法不仅可以达

到第１种方法的准确度，并且识别速度快，完全可以

满足实时性的要求。例如，文斌等针对三七叶片病

１７］

害改进ＹＯＬＯｖ３，提升了病害检测精度和鲁棒性

［

；

１．２　ＹＯＬＯｖ５ｓ网络模型

ＹＯＬＯｖ５ｓ网络模型一般由输入端、躯干网络

（ｂａｃｋｂｏｎｅ）、颈部（ｎｅｃｋ）和头部（ｈｅａｄ）４个部分构

成（图２）。输入端通常由３个部分组成，分别为数

据增强、图像锚框运算与缩放。主干网络主要由卷

积（ＣＯＮＶ）、卷积层与瓶颈层模块Ｃ３和空间金字塔

池化（ＳＰＰＦ）构成，负责图像特征的获取。颈部通过

金字塔构造实现特征融合。头部采用ＣＩＯＵ＿Ｌｏｓｓ损

失函数和非极大值抑制（ｎｏｎｍａｘｉ－ｍｕｍ

，简称ＮＭＳ）进行预测。ｓｕｐｐｒｅｓｓｉｏｎ

１．３　模型改进

１．３．１　Ｋ－Ｍｅａｎｓ＋＋进行锚框优化　ＹＯＬＯｖ５ｓ网

ＯＣＯ数据集得到的（表络的初始先验锚框是通过Ｃ

１）。ＣＯＣＯ数据集共有８０个类别，本研究中使用的

数据集与之存在比较大的差异，最终会影响网络的

整体性能。本研究采用了Ｋ－Ｍｅａｎｓ＋＋算法对锚

框进行聚类分析，相比于Ｋ－Ｍｅａｎｓ算法，它进一步

优化了初始点的选取，首先通过随机选取一个样本

作为聚类中心，随后再计算每个样本到达聚类中心

的最短距离，然后再计算出每个样本被选为后一个

聚类中心的概率，概率公式为

Ｐ＝

ｎ

。

２

（ｘ）

∑

Ｄ

ｉ

ｉ＝１

２

Ｄ（ｘ）

ｉ

张兆国等提出对ＹＯＬＯｖ４模型改良对复杂环境条件

下的马铃薯进行测试，其检测准确率达到

１８］

９１４％

［

；黄彤镔等针对柑橘识别改进ＹＯＬＯｖ５，添

１９］

。加注意力机制改善了遮挡问题

［

上述检测手段不能实现对果蔬真正的实时检

测，检测效率低下，无法适应实际农业生产活动的

需要，同时针对当前对成熟、未成熟和腐坏的番茄

检测研究较少，本研究将以ＹＯＬＯｖ５ｓ算法为前提加

以完善，通过融合注意力等新内容，提出一种改进

型ＹＯＬＯｖ５ｓ的番茄识别方法，通过识别番茄品类自

动采摘，降低采摘成本，研究结果将为实现番茄自

动采摘提供技术支持。

１　材料与方法

１．１　数据集

本试验所用番茄图像数据集主要来源于公开

数据集和实地拍摄。为了接近番茄生长的真实环

境，图像数据包括番茄数量、密集度和遮挡度不同

的各种情况，同时为了剔除腐败的番茄，减少养分

的浪费，数据集还包括大量的腐败番茄的图像。尽

可能保证数据的准确性，还需要人为进行标注，在

标注的同时尽量将框内的背景减小到最小。为更

好地模拟真实情况，对图像数据进行线性数据增

强，通过旋转、缩放和添加噪声，增加样本的多样

性。通过数据增强后得到４４２８张图像，将数据集

（１）

其中：Ｄ（ｘ）表示第ｉ个样本与当前已有聚类中心之

ｉ

间的最短距离；ｎ为样本总数；Ｐ表示每个样本点被

选为下一个聚类中心的概率。

通过Ｋ－Ｍｅａｎｓ＋＋聚类算法，产生不同大小和

表１　原始锚框

特征图尺度

小尺度

中尺度

大尺度

锚框１

（１０，１３）

３０，６１）（

（１１６，９０）

锚框２

（１６，３０）

（６２，４５）

（１５６，１９８）

锚框３

（３３，２３）

（５９，１１９）

（３７３，３２６）

图像包括尺度不同的目标，故在检测网络中融入

ｔｒａｎｓｆｏｒｍｅｒ模块解决尺度问题，ＶｉＴ图像处理流程如

图３所示。

　　ＶｉＴ和普通Ｔｒａｎｓｆｏｒｍｅｒ在输入上有所区别，后

者将标记嵌入的一维序列作为输入，而前者在处理

二维图形时，要把图形ｘＷ×Ｃ重塑为一组

∈

Ｈ×

２

二维的扁平序列ｘ（Ｐ），

∈

Ｎ×



Ｃ



表示维度，

ｐ

Ｈ和Ｗ是原始图形的高和宽，Ｃ是图形通道数量，Ｐ

２

是每个图形块的高宽，Ｎ＝ＨＷ／Ｐ既是图形块的总

数量的先验锚框，使之尽可能与实际目标框相匹

配，从而提高系统检测的准确度，最终确定的锚框

尺寸见表２。

表２　改进后锚框

特征图尺度

小尺度

中尺度

大尺度

锚框１

（３３，４１）

（１０３，１５２）

１８５，１５２）（

锚框２

（６０，１１７）

（１３２，８８）

（２４６，２３２）

锚框３

（７２，６０）

（１３８，２４６）

（２８２，３３８）

量，又是ＶｉＴ输入序列的有效长度。从ＶｉＴ的每个

层中产生一个恒定维度为Ｄ的特征向量，通过利用

可训练的线性投影可以把找平的像素块映射到Ｄ

０

维度上，如公式（２）所示。随后在图像序列（ｚ

Ｄ

＝

１．３．２　引入ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ　转换器

（ｔｒａｎｓｆｏｒｍｅｒ）已成为自然语言处理方面的主流模型，

在图像处理方面更是大放异彩。在目前以卷积神

经网络为核心的电脑视觉技术任务的重大背景下，

ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ（ＶｉＴ）的应用对卷积神经网络的

地位产生了冲击。Ｄｏｓｏｖｉｔｓｋｉｙ等将一个图像分割成

数个固定大小的图像块，并将其编码成序列向量作

ｒａｎｓｆｏｒｍｅｒ输入，成功解决图像处理领域在为ｔ

ｔｒａｎｓｆｏｒｍｅｒ中的输入问题。同时经过试验证明，当

预训练数据更丰富时，ｔｒａｎｓｆｏｒｍｅｒ在图像处理领域

２０］

的性能会超越卷积神经网络

［

。本试验所用番茄

ｘ）前加入一个具有学习能力的嵌入，其在

ｃｌａｓｓ

０

Ｔｒａｎｓｆｏｒｍｅｒ编码器输出时的状态ｚ作图像表

Ｌ

用ｙ

５）所示。示，如公式（

０１２Ｎ

ｚ＝［ｘ；ｘＥ；ｘＥ；…；ｘ］＋Ｅ，

ｐ

Ｅ

ｃｌａｓｓｐｐｐｏｓ

（Ｐ·Ｃ）×Ｄ（Ｎ＋１）×Ｄ

Ｅ，Ｅ；

∈

Ｒ

∈

Ｒ

ｐｏｓ

ｚ′＝ＭＳＡ［ＬＮ（ｚ）］＋ｚ，ｌ＝１…Ｌ；

ｌｌ－１ｌ－１

２

（２）

（３）

（４）

（５）

ｚＭＬＰ［ＬＮ（ｚ′）］＋ｚ′，ｌ＝１…Ｌ；

ｌ

＝

ｌｌ

０

ｙ＝ＬＮ（ｚ）。

Ｌ

其中：Ｅ表示线性变换；Ｅ表示在ｐｏｓ处的线性变

ｐｏｓ

换；ｚｚ′表示操作完成后的第

ｌ

表示第几个图像序列；

ｌ

几个序列；ＭＳＡ表示多头部自注意力；ＬＮ表示归一

化；ＭＬＰ表示多层感知机。

　　但Ｔｒａｎｓｆｏｒｍｅｒ也有不足之处，提取到的特征鲁

棒性较弱，经过研究证明，卷积神经网络能够通过

Ｔｒａｎｓｆｏｒｍｅｒ提高性能。本研究通过将Ｃ３模块中的

ＢｏｔｔｌｅＮｅｃｋ替换为ＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ实现二者的有机

结合构成Ｃ３ＴＢ，Ｃ３和Ｃ３ＴＢ结构如图４所示。

ａｃｋｂｏｎｅ末端使用全局注意力机制（ｇｌｏｂａｌ研究在Ｂ

［２１］

ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ，简称ＧＡＭ），使网络关注更

重要的区域，减少背景因素的影响，保留更多的特

征信息，提升网络检测准确度，ＧＡＭ模块整体结构

如图５所示。

　　输入特征先经过通道注意力进行校正，再通过

空间注意力继续校正。图６是通道注意力结构图。

首先将纬度大小为Ｃ×Ｗ×Ｈ的输入特征经过三维

１．３．３　添加ＧＡＭ注意力模块　注意力机制的添

加能使网络关注到图像中的关键点，有助于提高番

茄检测任务的性能。不论是挤压激励网络（ｓｑｕｅｅｚｅ

ａｎｄｅｘｃｉｔａｔｉｏｎｎｅｔｗｏｒｋ，简称ＳＥＮｅｔ），还是之后的卷

积注意力模块（ｃｏｎｖｏｌｕｔｉｏｎａｌｂｌｏｃｋａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ，

简称ＣＢＡＭ），都没有注意到空间－通道之间的相互

作用，而削弱了跨纬度的交互。鉴于上述问题，本

排列保存３个纬度上的信息，其中Ｃ是特征通道数

量，Ｗ和Ｈ分别是输入特征的宽和高。随后将输出

信息通过２层的多层感知器，第１层将Ｃ压缩为Ｃ／

Ｒ，Ｒ为压缩比，再经由第２层恢复到Ｃ，最后再经由

反三维排列操作，通过Ｓｉｇｍｏｉｄ激活函数得到一个

新的特征图。

　　图７是空间注意力结构图，输入特征纬度大小

为Ｃ×Ｗ×Ｈ，通过２个卷积核为７×７的卷积层，实

现空间信息的融合，同时进行通道的编码和解码操

作，然后通过Ｓｉｇｍｏｉｄ激活函数得到新的特征图。

１．３．４　特征金字塔网络改进　在卷积神经网络中，

图像特征容易受浅层网络的影响，而语义特征容易

受深层网络的影响，从而在目标检测中因卷积神经

网络的这个特性而影响精度。根据这些现象，特征

金字塔网络（ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ，简称ＦＰＮ）随

之被提出，结构如图８－ａ所示，通过使不同维度的

特征图中含有尽可能多的语义信息，再通过上采样

把顶层信息与下层信息加以结合，从而实现相应的

目的，并且每层都是独立进行预测。但是ＦＰＮ这种

设计有种缺陷，只增加了特征图的语义信息，定位

信息并不能进行传输。为了解决相关问题，又建立

了一个由底往顶的金塔，即与ＦＰＮ操作相反的路径

聚合网络（ｐａｔｈａｇｇｒｅｇａｔｉｏｎｎｅｔｗｏｒｋ，ＰＡＮｅｔ），结构如

ｂ所示。通过２种结构的结合，检测精度有了图８－

明显的提升。

加权双向特征金字塔网络（ｂｉｄｉｒｅｃｔｉｏｎａｌｆｅａｔｕｒｅ

，简称ＢｉＦＰＮ）最先在ＥｆｆｉｃｉｅｎｔＤｅｔ中ｐｙｒａｍｉｄｎｅｔｗｏｒｋ

被提到，通过在输入与输出节点中间增加一个直接

相连路径，可以使得在不提高计算量的前提下，能

够融入更多需要的特性。与ＰＡＮｅｔ中仅有一条自

顶向下和一条自底向上路线有所不同的是，把所有

双向路线视作一条特征网络层，并多次重复同一层

来进行更深层次的特性融合，ＢｉＦＰＮ如图８－ｃ所

示。在此操作中加快了计算的速度，如公式（６）

所示：

Ｏ＝

∑

ｉ

×Ｉ。

ｉ

＋

∑ω

ｊ

Ｒｅｓｉｚｅ表示上取示第６节点自底向顶的输出特征；

样或下取样；Ｃｏｎｖ表示卷积处理。根据上述优势，

ＯＬＯｖ５ｓ模型里的金字塔模块修改为ＢｉＦＰＮ，以把Ｙ

增强特征融合，并提高测速率。

１．４　试验环境

本试验使用的运行系统为Ｗｉｎｄｏｗｓ１０，并使用

了Ｐｙｔｏｒｃｈ作为深度学习结构，详细试验环境设置见

。训练时优化器使用随机梯度下降法表３

（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ，简称ＳＧＤ），初始的学习

率参数调整为０．０１，余弦退火超参数设置成０．１，动

量因子调整为０．９３７，权重衰减系数最终确定为

００００５。网络图像输入大小为６４０×６４０，Ｂａｔｃｈｓｉｚｅ

设置为１６，总训练３００个ｅｐｏｃｈ。此次试验于２０２２

年１１月１日在江西理工大学电气学院３１５实验室

完成。

表３　试验环境配置

项目

ＣＰＵ

ＧＰＵ

系统环境

框架

语音

配置

ＴＭ

Ｉｎｔｅｌｏｒｅｉ９－９９００ＣＰＵ＠３．１０ＧＨｚ１６Ｇ



Ｃ

（６）

式中：权重

，；Ｉ

≥

０

ω≥

０

表

ｉｊｉ

为输入其中的特征；

示学习率；Ｏ表示结果。鉴于标量权重没有边界，为

保证训练稳定，应用ｓｏｆｔｍａｘ实现归一化运算。把

Ｂａｃｋｂｏｎｅ中Ｐ、Ｐ、Ｐ个不同尺度的特征都输

３４７

这３

入到ＢｉＦＰＮ中，然后即可建立２０×２０、４０×４０、８０×

８０这３个纬度的预测分支。以Ｐ

６

节点为例说明融

合过程，如下所示：

Ｒｅｓｉｚｅ（Ｐ

Ｐ＋

２７

）

Ｐ＝Ｃｏｎｖ

１６

；

ωωε

１

＋

２

＋

ｔｄ

６

ＧｅＦｏｒｃｅＲＴＸ２０７０ＳＵＰＥＲ８Ｇ

Ｗｉｎｄｏｗｓ１０

Ｐｙｔｏｒｃｈ１．１１．０

Ｐｙｔｈｏｎ３．８

ＣＵＤＡ１１．３

[

ｉｎｉｎ

]

加速环境

（７）

１．５　评价指标

基于量化判断方法并分析试验结论，本研究选

择在目标测试中使用的精度（ｐｒｅｃｉｓｉｏｎ，简称Ｐ）、召

回率（ｒｅｃａｌｌ，简称Ｒ）和均值平均精度（ｍｅａｎａｖｅｒａｇｅ

ｐｒｅｃｉｓｉｏｎ，简称ｍＡＰ）作为相关衡量指标。Ｐ是用来

表示真正的正样本在检测结果为正样本中所占的

ｏｕｔ

ＰＣｏｎｖ

６

＝

ｔｄ

６

[

′Ｐ＋′Ｐ＋′Ｒｅｓｉｚｅ（Ｐ）

ωωω

３

。（８）

′＋′＋′＋

ωωωε

１２３

ｉｎ

１６

ｔｄ

２６

ｏｕｔ

５

]

式中：Ｐ表示第６节点自顶向底的中间特征；Ｐ表

示第２节点输入的特征；Ｐ表示第７节点输入的特

Ｐ表示第５节点自底向顶的输出特征；Ｐ表征；

ｏｕｔ

５

ｏｕｔ

６

ｉｎ

７

ｉｎ

６

比例，Ｒ是表示被检测到的正样本在真正的正样本

中的占比，ｍＡＰ表示各个类别平均精度的均值，相

关公式如下所示：

ＴＰ

Ｐ＝；

ＴＰ＋ＦＰ

ＴＰ

Ｒ＝；

ＴＰ＋ＦＮ

（９）

（１０）

升，导致会对每幅图像检测更多的目标，从而帧率下

８，但仍快于ＳＳＤ、Ｆａｓｔｅｒ－ＲＣＮＮ和ＹＯＬＯｖ４－降了１

ｔｉｎｙ，满足实时性的要求。

表４　试验对比结果

模型

ＳＳＤ

ｍＡＰ

（％）

７６．７

８０．８

８８．４

９０．６

９３．９

Ｒ

（％）

７３．９

８８．５

８５．３

８７．１

９２．７

帧率

（帧／ｓ）

１８

９

５２

９０

７２

∫

１

ｍＡＰ＝

∫

Ｐ（ｒ）ｄｒ。

Ｃ

ＡＰ（ｒ）ｄｒ；

Ｐ

＝

０

１

０

１

（１１）

（１２）

Ｆａｓｔｅｒ－ＲＣＮＮ

ＹＯＬＯｖ４－ｔｉｎｙ

ＹＯＬＯｖ５ｓ

改进的ＹＯＬＯｖ５ｓ

ＴＰ为正确分配的正样本，即番茄成熟并且检式中：

测结果正确；ＦＰ为分配错误的正样本，即番茄成熟

但被检测为不成熟或者腐败的；ＦＮ为分类错误的

负样本；ＡＣ为类别数。

Ｐ

表示平均精准度；

２　结果与分析

２．１　训练结果

将原始模型与改进后的模型在相同环境下训

练３００轮，ｍＡＰ曲线对比如图９所示，橘色曲线为

改进前，蓝色曲线为ＹＯＬＯｖ５ｓ改进后。其中横坐标

为３００轮训练次数，纵坐标为ｍＡＰ。由图９可知，在

训练３０轮前模型收敛速度极快，经过１００轮训练２

个模型都趋于稳定，同时改进后的模型在ｍＡＰ上相

较于原模型得到明显提升，表明模型改进可行。

２．３　消融试验

对经过优化的ＹＯＬＯｖ５ｓ模型，通过消融对比试

验结果来证明每个改进模块对模型的优化效果，试

验结果见表５。其中改进模型１是通过使用Ｋ－

ｍｅａｎｓ＋＋修改了先验锚框，从而使该锚框的匹配性

．３百分点；改进模型提高，均值平均精度也增加了１

２是改变金字塔网结构为加权双向金字塔网络，均

值平均精度增加１．７百分点；改进模型３是改变主

干网络增加ＧＡＭ注意力，均值平均精度增加２．５百

分点；改进模型４是改变颈部网络Ｃ３结构为Ｃ３ＴＢ，

均值平均精度增加２．１百分点。把４个优化方案同

时融入到一个模型，均值平均精度相较于原

ＹＯＬＯｖ５ｓ模型整体增加３３百分点。

表５　消融试验结果

模型

ＹＯＬＯｖ５ｓ

改进模型１

改进模型２

改进模型３

改进模型４

改进的ＹＯＬＯｖ５ｓ

Ｋ－ｍｅａｎｓ＋＋ＢｉＦＰＮＧＡＭＣ３ＴＢ

√

ｍＡＰ（０．５）

（％）

９０．６

９１．９

９２．３

９３．１

９２．７

９３．９

２．４　试验结果分析

２．２　对比试验

为进一步评价本研究中改进方法对番茄的检

验能力，本试验将经过优化的ＹＯＬＯｖ５ｓ与ＳＳＤ、

Ｆａｓｔｅｒ－ＲＣＮＮ、ＹＯＬＯｖ４－ｔｉｎｙ以及ＹＯＬＯｖ５ｓ目标检

测方法进行比较，并采用相同的数据划分和试验设

置。由表４可知，改进的ＹＯＬＯｖ５ｓ算法在均值平均

精度和召回率上比其他算法有更好的表现，相较于

ＹＯＬＯｖ５ｓ，分别提升了３．３、５．６百分点，分别达到了

９３．９％和９２．７％。同时，由于本算法召回率的提

为更好地检验经优化后的ＹＯＬＯｖ５ｓ方法的测

试效果，选择了测试集中的一些图片进行了检测，

番茄测试效果如图１０所示，图１０－ａ是原始图像；

图１０－ｂ是原始ＹＯＬＯｖ５ｓ算法的检测结果，其中红

色箭头表示漏检的番茄；图１０－ｃ是优化后

ＹＯＬＯｖ５ｓ方法的测试结果。通过图１０－ｂ和图

１０－ｃ对比可知，原始ＹＯＬＯｖ５ｓ算法对图１０－ｂ中

红色箭头所指番茄漏检，改进后的ＹＯＬＯｖ５ｓ算法能

准确地检测出这些目标，并且置信度得到提高，能

够捕捉到关键信息进而对遮挡目标也有较好的检

测效果。

３　讨论与结论

本研究根据目前对番茄的传统检测方法以及

对密集目标漏检的测量精度较差的情况，给出一个

更完善的ＹＯＬＯｖ５ｓ检测模型。通过使用

Ｋ－ｍｅａｎｓ＋＋算法对自制番茄数据集提高先验锚

ＯＬＯｖ５ｓ主干网络增加注意力模块、框匹配度、对Ｙ

设计Ｃ３ＴＢ模块替换Ｃ３模块、优化特征金字塔网络

等提高模型的检测能力。通过对比试验证明，完善

后的ＹＯＬＯｖ５ｓ模型相比于原始的模型，ｍＡＰ提升了

３３％且置信度更高，对遮挡目标的辨识度提高减少

了漏检，虽然检测速率有所下降，但本模型精度能

够满足实际采摘的需求，为番茄自动采摘提供技术

支持。

参考文献：

［１］李君明，项朝阳，王孝宣，等．“十三五”我国番茄产业现状及展

望［Ｊ］．中国蔬菜，２０２１（２）：１３－２０．

［２］王海楠，弋景刚，张秀花．番茄采摘机器人识别与定位技术研究

进展［Ｊ］．中国农机化学报，２０２０，４１（５）：１８８－１９６．

［３］王文杰，贡　亮，汪　韬，等．基于多源图像融合的自然环境下番

Ｊ］．农业机械学报，２０２１，５２（９）：１５６－１６４．茄果实识别［

［４］阮承治，赵德安，陈　旭，等．双指型农业机器人抓取球形果蔬的

控制器设计［Ｊ］．中国农机化学报，２０１９，４０（１１）：１６９－１７５．

［５］陈科圻，朱志亮，邓小明，等．多尺度目标检测的深度学习研究综

述［Ｊ］．软件学报，２０２１，３２（４）：１２０１－１２２７．

［６］赵立新，邢润哲，白银光，等．深度学习在目标检测的研究综述

［Ｊ］．科学技术与工程，２０２１，２１（３０）：１２７８７－１２７９５．

［７］包晓敏，王思琪．基于深度学习的目标检测算法综述［Ｊ］．传感

２０２２，４１（４）：５－９．器与微系统，

［８］邵延华，张　铎，楚红雨，等．基于深度学习的ＹＯＬＯ目标检测综

述［Ｊ］．电子与信息学报，２０２２，４４（１０）：３６９７－３７０８．

［９］李　萍，邵　，齐国红，等．基于跨深度学习模型的作物病害检

Ｊ］．江苏农业科学，２０２２，５０（８）：１９３－１９９．测方法［

［１０］ＧｉｒｓｈｉｃｋＲ，ＤｏｎａｈｕｅＪ，ＤａｒｒｅｌｌＴ，ｅｔａｌ．Ｒｉｃｈｆｅａｔｕｒｅｈｉｅｒａｒｃｈｉｅｓｆｏｒ

ａｃｃｕｒａｔｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ［Ｃ］／／２０１４

ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．

，２０１４：５８０－５８７．Ｃｏｌｕｍｂｕｓ

［１１］ＧｉｒｓｈｉｃｋＲ．ＦａｓｔＲ－ＣＮＮ［Ｃ］／／２０１５ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌ

ＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｓａｎｔｉａｇｏ，２０１６：１４４０－１４４８．

［１２］ＲｅｎＳＱ，ＨｅＫＭ，ＧｉｒｓｈｉｃｋＲ，ｅｔａｌ．ＦａｓｔｅｒＲ－ＣＮＮ：ｔｏｗａｒｄｓｒｅａｌ－

［Ｊ］．ＩＥＥＥｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋｓ

ＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２０１７，３９

（６）：１１３７－１１４９．

［１３］张文静，赵性祥，丁睿柔，等．基于ＦａｓｔｅｒＲ－ＣＮＮ算法的番茄

识别检测方法［Ｊ］．山东农业大学学报（自然科学版），２０２１，５２

（４）：６２４－６３０．

［１４］龙洁花，赵春江，林　森，等．改进ＭａｓｋＲ－ＣＮＮ的温室环境下

Ｊ］．农业工程学报，２０２１，３７不同成熟度番茄果实分割方法［

（１８）：１００－１０８．

［１５］ＬｉｕＷ，ＡｎｇｕｅｌｏｖＤ，ＥｒｈａｎＤ，ｅｔａｌ．ＳＳＤ：ｓｉｎｇｌｅｓｈｏｔｍｕｌｔｉＢｏｘ

ｄｅｔｅｃｔｏｒ［Ｃ］／／ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｃｈａｍ：

Ｓｐｒｉｎｇｅｒ，２０１６：２１－３７．

［１６］ＲｅｄｍｏｎＪ，ＤｉｖｖａｌａＳ，ＧｉｒｓｈｉｃｋＲ，ｅｔａｌ．Ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ：

ｕｎｉｆｉｅｄ，ｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｃ］／／２０１６ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎ

ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＬａｓＶｅｇａｓ，ＮＶ，ＵＳＡ．

，２０１６：７７９－７８８．ＩＥＥＥ

［１７］文　斌，曹仁轩，杨启良，等．改进ＹＯＬＯｖ３算法检测三七叶片

Ｊ］．农业工程学报，２０２２，３８（３）：１６４－１７２．病害［

［１８］张兆国，张振东，李加念，等．采用改进ＹｏｌｏＶ４模型检测复杂环

境下马铃薯［Ｊ］．农业工程学报，２０２１，３７（２２）：１７０－１７８．

［１９］黄彤镔，黄河清，李　震，等．基于ＹＯＬＯｖ５改进模型的柑橘果

Ｊ］．华中农业大学学报，２０２２，４１（４）：１７０－１７７．实识别方法［

［２０］ＤｏｓｏｖｉｔｓｋｉｙＡ，ＢｅｙｅｒＬ，ＫｏｌｅｓｎｉｋｏｖＡ，ｅｔａｌ．Ａｎｉｍａｇｅｉｓｗｏｒｔｈ

１６ｘ１６ｗｏｒｄｓ：ｔｒａｎｓｆｏｒｍｅｒｓｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎａｔｓｃａｌｅ［ＥＢ／ＯＬ］．

２０２０：ａｒＸｉｖ：２０１０．１１９２９．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２０１０．１１９２９．

［２１］ＬｉｕＹＣ，ＳｈａｏＺＲ，ＨｏｆｆｍａｎｎＮ．Ｇｌｏｂａｌａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ：ｒｅｔａｉｎ

［ＥＢ／ＯＬ］．ｉｎｆｏｒｍａｔｉｏｎｔｏｅｎｈａｎｃｅｃｈａｎｎｅｌ－ｓｐａｔｉａｌｉｎｔｅｒａｃｔｉｏｎｓ

２０２１：ａｒＸｉｖ：２１１２．０５５６１．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２１１２．０５５６１．

USB迷 | 专注于互联网分享

基于改进型YOLOv5s的番茄实时识别方法

与本文相关的文章

评论列表 (0)