基于改进YOLOv5s_模型的山地果园单轨运输机搭载柑橘的检测-USB迷|专注于互联网分享

2024年4月15日发(作者：余若山)

湖南农业大学学报(自然科学版) 2023，49(4)：491–496．DOI：10.13331/.2023.04.018

Journal of Hunan Agricultural University(Natural Sciences)

引用格式：

周岳淮，李震，左嘉明，龚琬蓉，吕石磊，温威，黄莺．基于改进YOLOv5s模型的山地果园单轨运输机搭

载柑橘的检测[J]．湖南农业大学学报(自然科学版)，2023，49(4)：491–496．

ZHOU Y H，LI Z，ZUO J M，GONG W R，LYU S L，WEN W，HUANG Y．Detection of citrus carried by

mountainous orchard monorail transporter based on improved YOLOv5s[J]．Journal of Hunan Agricultural

University(Natural Sciences)，2023，49(4)：491–496．

投稿网址：

基于改进YOLOv5s模型的山地果园单轨运输机

搭载柑橘的检测

周岳淮

，李震

1,3

，左嘉明

，龚琬蓉

，吕石磊

1,3

，温威

3,4

，黄莺

1,2*



(1.华南农业大学电子工程学院(人工智能学院)，广东广州 510642；2.柳州铁道职业技术学院自动控制学院，广

西柳州 545616；3.国家现代农业(柑橘)产业技术体系机械化研究室，广东广州 510642；4.华南农业大学工程基

础教学与训练中心，广东广州 510642)

摘

要

：由于山地果园运输机立地条件差，实时作业信息的获取、反馈、集中化管理较为困难，为了解7SYDD–200

型山地果园单轨运输机搭载货物情况，合理调度运输装备，建立了基于改进的YOLOv5s模型的运输机搭载柑橘果

筐的检测方法：在果园自然光环境下使用RGB相机(HSK–200)采集运输机搭载柑橘果筐的图像数据；建立和优化

YOLOv5s模型，部署至嵌入式设备，实现对搭载过程中的“空果筐”“柑橘”“满果筐”状态的检测。在模型的颈部网络

引入CBAM注意力机制，加强模型提取语义信息的能力，解决检测过程中出现的“双重标签”的问题，使用批归一化

(BN)层稀疏的尺度因子衡量各通道对模型的表征能力，并对表征能力弱的通道进行剪枝压缩，以克服基模型

YOLOv5s检测速度慢的问题，通过多尺度训练策略对模型进行微调，提高模型检测准确率。试验结果表明：改进

YOLOv5s模型的检测方法在柑橘搭载数据集上平均精度均值(mAP)为93.3%；模型的浮点数运算量和大小分别为9.9

GFLOPs和3.5 MB，比YOLOv5s的提高60.3%和21.3%；在嵌入式平台Jetson Nano部署，其检测速度为78 ms/帧。

关键

词

：山地果园单轨运输机；目标检测；剪枝压缩；CBAM注意力机制；改进YOLOv5s

中图分类号

：S229 文献标志码：A 文章编号：1007–1032(2023)04–0491–06

Detection of citrus carried by mountainous orchard monorail

transporter based on improved YOLOv5s

ZHOU Yuehuai

，LI Zhen

1,3

，ZUO Jiaming

，GONG Wanrong

，LYU Shilei

1,3

，WEN Wei

3,4

，HUANG Ying

1,2*

(e of Electronic Engineering(College of Artificial Intelligence), South China Agricultural University,

Guangzhou, Guangdong 510642, China; tic Control School, Liuzhou Railway Vocational Technical College,

Liuzhou, Guangxi 545616, China; ization Laboratory of National Modern Agriculture(Citrus) Industrial

Technology System, Guangzhou, Guangdong 510642, China; ering Fundamental Teaching and Training Center,

South China Agricultural University, Guangzhou, Guangdong 510642, China)

Abstract: Due to the poor site conditions of mountainous orchard monorail transporter, it is difficult to obtain, feedback

and centralized management of real-time operation information. In order to monitor the proceeding of deliveries by

7SYDD-200 mountainous orchard monorail transporter and reasonably dispatch transportation equipment, the detection

method of citrus fruit basket carried by the transporter is established based on the improved YOLOv5s model. Images of

the citrus fruit baskets carried by the transporter were collected by the RGB camera of HSK-200 under the natural light

收稿日期：2022–05–16 修回日期：2023–04–20

基金项目：国家重点研发计划子课题(2020YFD1000107)；国家现代农业产业技术体系(CARS–26)；国家自然科学基金项目(31971797、616

01189)；广东省省级乡村振兴战略专项(粤财农[2021] 37号)

作者简介：周岳淮(1997—)，男，广东深圳人，硕士研究生，主要从事图像处理研究，*****************.；*通信作者，黄莺，教授，

主要从事智能检测与控制技术研究，***********************

492

湖南农业大学学报(自然科学版)

2023年8月

environment of mountainous orchards.

The YOLOv5s model was established and optimized, which was deployed into the

embedded device to detect the states of “empty fruit basket”, “citrus” and “full fruit basket” during the loading process.

convolutional block attention module(CBAM) is introduced into neck network of the model to strengthen the ability to

extract semantic information and solve the problem of “double labels” in the detection process. The sparse scale factor of

the batch normalization(BN) layer was used to measure the representation ability of each channel of the model. The

channels with weak representation ability were pruned and compressed to overcome the problem of slow detection speed

of the model based on YOLOv5s. The multi-scale training strategy is used to fine-tune the model to improve the detection

accuracy. The test results show that the mean average precision of the improved detection method is 93.3% on the fruit

dataset. The floating point operation and the size of the improved models were 9.9 G and 3.5 M, respectively, which were

60.3% and 21.3% higher than that of YOLOv5s. The detection speed of the improved model was 78 ms/img, when it was

deployed into the Jetson Nano embedded platform.

Keywords:

mountainous orchard monorail transporter; object detection; pruning and compressing; convolutional block

attention module(CBAM); improved YOLOv5s

南方山地果园立地条件多数为丘陵和山地，果

园坡度大，地形复杂，较难形成完善的交通运输网

络，山地果园单轨运输机的推广应用提高了山地运

输的经济效益，促进了果业的可持续发展

[1–3]

。

山地果园单轨运输机主要运输水果、化肥、小

型农机具等，装载能力较强，可靠性高，且轨道铺

设灵活

，但工作环境较为复杂，实时作业信息的集

中化管理难度较大，若不按额定搭载量行驶，容易

造成安全事故，影响运输效率

[4–5]

。及时了解和掌

握运输机的搭载状况，对提高运输装备的资源配

置、提升作业安全性和作业效率具有重要意义。机

器视觉技术在识别运送装备搭载情况时具有较好

的应用前景。张毅等

[6]

利用Harris角点特征和特征

点匹配方法识别码垛作业中的烟包，在特定环境识

别准确率高，但识别效果受光照影响较大。HUSSIN

等

[7]

通过圆形Hough变换对挂果芒果进行目标检

测，在芒果重叠和遮蔽的情况下，检测位置偏差较

大，准确率较低。传统视觉算法在自然光变化较大

时检测的鲁棒性较低，不适合光线变化较大的果园

环境检测单轨运输机搭载状况，而深度学习有望解

决传统图像处理算法存在的效率低和表征能力不

足等问题

[8]

。金秋等

[9]

通过微调两阶段目标检测网

络Faster–RCNN，实现在仓储环境下对货物和叉车

的识别，识别准确率高，受环境因素影响较小，但

检测速度较慢。王晨等

[10]

基于YOLOv4网络，将其

骨干网络改换为更轻量级的MobileNetV3，实现了

仓储货物的目标实时检测。汤寓麟等

[11]

使用改进的

YOLOv5算法实现了海底沉船目标的检测，检测速

度比YOLOv3提升将近1倍。说明单阶段目标检测

网络(如YOLO等)比两阶段目标检测网络(如

Faster–RCNN)的检测速度更快，更适合部署于嵌入

式平台，通过迁移学习和模型微调保证检测精度，

满足使用需求。

为了解山地果园单轨运输机搭载柑橘情况，建

立了一种果园环境中单轨运输机柑橘搭载情况人

工智能分析方法：采集运输机柑橘搭载图像后，优

化YOLOv5s目标模型，在颈部网络引入CBAM注

意力机制，解决检测过程中出现“双重标签”的问题；

通过剪枝压缩减少模型的参数量和计算量，提高检

测速度，并使用多尺度训练策略，提高检测精度，

以实现柑橘搭载过程中“空果筐”“柑橘”“满果筐”的

实时检测。

1 数据处理

根据7SYDD–200型山地果园单轨运输机常见

的搭载1层和2层果筐和柑橘，采集运载拖车中柑

橘搭载情况图像。为满足自然光下柑橘搭载情况的

检测需求，在华南农业大学的山地果园单轨运输机

测试平台采集数据。考虑到果园中树木遮挡会使光

照发生较大变化，采集时间涵盖了晴天、阴天和多

云等多种天气情况。在搭载过程中，果园运输机搭

载的果品、农资会环绕山岭任意点装卸，并且动力

电池需能够为检测系统提供电源，因此视觉传感器

安装于运输机载货车斗前方，位置高于车斗前方横

杆40 cm，与车斗平面夹角为45°，从而得到完整的

载货车斗图像。视觉传感器安装如图1–a所示。数

据采集设备为HSK–200(鸿视康)，分辨率1920像素

×1080像素。

2021年5月至6月，采集原始图像共872张，

共有3种类型，分别为“空果筐”“满果筐”“柑橘”，

样本标注数分别为1046、688、6720个，如图1–b

所示。考虑到山地果园中树木遮挡导致光线变化较

大，在原始数据集分别加入高斯噪声和随机调整图

像亮度进行数据增强，增强后的数据集共2616张。

第49卷第4期

周岳淮等基于改进YOLOv5s模型的山地果园单轨运输机搭载柑橘的检测

493

2的比例将数据集划分为训练集与验证集，按照8∶其中训练集为2092张，验证集为524张。

a 采集设备 b 搭载空果筐与柑橘

图1 山地果园单轨运输机搭载柑橘及果筐图像的采集

Fig.1 Image acquisition of citrus and fruit basket carried by mountainous orchard monorail transporter

2 改进的YOLOv5s网络模型

2.1 基模型的选择

YOLOv5s网络主要由骨干网络、颈部网络和预

测网络构成

[12]

。骨干网络中的Focus模块能够避免

输入图像下采样造成特征信息的丢失，保留图像更

丰富的特征。颈部网络由特征金字塔和路径聚合网

络组成，能将深层语义信息和骨干网络中浅层空间

信息进行融合，提高模型表达能力

[13]

。预测网络部

分，YOLOv5s能够输出大、中、小3种尺寸的特征

图，更好地预测不同尺寸的目标。

2.2 算法改进

2.2.1 CBAM混合域注意力机制

应用YOLOv5s模型识别“空果筐”和“满果筐”

时会出现“双重标签”的问题，为提高识别准确率，

在YOLOv5s颈部网络的C3模块后引入CBAM注

意力机制模块

[14–15]

，如图2所示。

图2 改进的YOLOv5s子结构

首先对尺寸为

CHW

的输入特征图在空间

Fig.2 Substructure of improved YOLOv5s

2.2.2 模型的剪枝压缩

融合CBAM模块的YOLOv5s在嵌入式平台

Jetson Nano上检测速度较慢，每帧耗时约为184

ms。为提高模型推理速度，减少网络冗余参数量，

基于YOLOv5s卷积层后普遍连接BN层的模型结

构，通过稀疏化BN层尺度因子，将表征能力弱的

通道进行剪枝，剪枝流程如图3所示。

维度上使用最大值池化和平均值池化，变换为

加和操作和Sigmoid激活，得

C11

并经过MLP、

到具有通道注意力的特征图，丰富其深层特征。再

将具有通道注意力的特征图输入空间注意力模块

在通道维度上进行特征提取，关注目标的位置信

息，从而提高模型的位置和语义信息的能力。

494

湖南农业大学学报(自然科学版)

2023年8月

图3 模型剪枝流程

根据BN层变换公式(1)、公式(2)，z

与z

out

为

Fig.3 The flowchart of model pruning

选取稀疏率0.000 5对模型进行稀疏训练，并使

用剪枝率0.6对模型进行压缩。稀疏训练前BN层



值分布如图4–a所示，γ值大小，在1附近呈正态分

布，不利于剪枝压缩；而稀疏训练后的γ值如图4–b

所示，稀疏化较为明显，部分层的γ值已经趋近于0，

即该通道对模型表征能力影响较弱，可以被裁剪。

选用稀疏率0.000 5和剪枝率0.6对模型进行剪枝，

能够达到模型轻量化的效果，提高模型检测速度。

BN层的输入与输出，μ

和σ表示当前批量在激活

输入的平均值和标准差值。由于尺度因子



与上一

层卷积层输出相乘，从而能够作为权重用于衡量当

前通道重要程度，因此通过稀疏训练对



进行稀疏

化，并将



较小(如图3中C

和C

)的通道进行剪

枝，达到模型压缩的效果。

z





(1)











(2)

out





a 稀疏训练前 BN 层γ值分布 b 稀疏训练后 BN 层γ值分布

图4 模型稀疏训练的评估

2.2.3 多尺度训练

Fig.4 Evaluation of sparse training for the model

为多尺度训练输入图像尺寸大小，使模型学习不同

尺度输入的图像特征，提高模型的检测精度，且每

隔10个轮次后改变图片大小，再对模型进行训练。

为避免YOLOv5s网络使用单一尺寸的图像进

行训练时容易出现识别目标漏检的情况

[16]

，为提高

模型的鲁棒性，采取多尺度训练策略。改进的

YOLOv5s网络最大下采样倍率为32倍，且当图像

输入尺寸为640像素×640像素时检测精度较高，但

检测速度较慢；当输入尺寸为480像素×480像素时，

检测速度能满足需求。为达到检测精度和速度的要

求，选取{640、576、544、512、480}等5个尺度作

3 试验环境与评价指标

3.1 试验设备和参数设置

模型训练的服务器配置为Intel(R) Xeon(R) Gold

6142 CPU处理器，内存29 GB，显卡型号为NVIDIA

GeForce RTX 3080 10 GB。在Ubuntu18.04系统和

Pytorch框架下实现YOLO算法。试验平台硬件配置

第49卷第4期

周岳淮等基于改进YOLOv5s模型的山地果园单轨运输机搭载柑橘的检测

495

为Intel(R) Core i5–11400 2.60 GHz处理器，内存16

GB，显卡为GeForce RTX2060 6GB。嵌入式平台选

用Jetson Nano B01，运行内存为4 GB。

网络训练时初始学习率为0.01，初始动量为

0.937，动量系数为0.000 5，采用Adam算法进行

优化，训练250个轮次。为提高单GPU训练效率，

使用Mosaic数据增强。

3.2 模型评价指标的选取

选择平均精度(AP)和平均精度均值(mAP)

[17]

作

为准确度指标；其他指标包括每帧耗时(ms)、浮点

运算数FLOPs和模型大小(MB)。

3.3 消融对比试验

为验证改进的子结构和训练策略对模型的影

响，对改进机制和策略进行消融对比试验，其中

YOLOv5sA为带有CBAM注意力的YOLOv5s模

型，YOLOv5sAP为引入注意力和模型剪枝的

YOLOv5s模型，结果如表1所示。在基模型

YOLOv5s加入注意力机制，模型检测“满果筐”的平

均精度为96.9%，比基模型提高了1.3%，说明注意

力机制能够提高模型提取语义信息的能力；对模型

加入注意力机制和剪枝压缩，并使用多尺度训练策

略，模型检测平均精度均值为93.3%，在Jetson上

的检测速度为78 ms/帧，检测精度和检测速度相比

于基模型都有所提升，检测效果较好。

表1 模型消融试验的性能指标

Table 1 Model performance in ablation experiments

模型

基模型

YOLOv5sA

YOLOv5sAP

改进 YOLOv5s

注意力

√

剪枝

√

多尺度训练

√

平均精度/%

空果筐

97.4

97.5

97.3

97.7

柑橘

84.2

85.1

84.6

85.6

满果筐

95.6

96.9

96.4

96.5

mAP/%

92.4

93.2

92.8

93.3

模型大小/ 每帧耗时/

MB ms

14.4

14.6

3.5

145

184

3.4 不同模型的检测效果

为对比与常见目标检测模型的效果，将检测结

果与典型的单阶段检测网络RetinaNet–Res50和

YOLOv3–tiny进行对比，且均以图像尺寸为480像

素×480像素输入网络进行训练，采用算法默认超参

数进行训练。

RetinaNet–Res50、YOLOv3–tiny和改进的

YOLOv5s的性能指标如表2所示。在自定义数据集

上, 改进的YOLOv5s的mAP最高(93.3%)，比

RetinaNet–Res50高10.2%。此外，RetinaNet–Res50

模型较大，不适用于嵌入式设备。在模型大小相近

的情况下，YOLOv3–tiny比本模型的mAP低

12.4%，2个模型检测柑橘的平均精度分别为53.1%

和85.6%，检测精度有明显差异。这是由于

YOLOv3–tiny模型输出只有2种不同尺度的输出特

征图，对存在粘连且较小的目标检测效果较差，易

出现柑橘漏检的情况，因此在检测速度和精度上有

更好的性能。

表2 不同模型的检测性能对比

Table 2 Comparison of the detection performance for the different models

模型

RetinaNet–Res50

YOLOv3–tiny

改进YOLOv5s

AP/%

空果筐

91.5

95.5

97.7

柑橘

73.5

53.1

85.6

满果筐

84.2

94.2

96.5

mAP/%

83.1

80.9

93.3

浮点运算量/

GFLOPs

156.0

12.9

9.9

模型大小

/MB

145.8

17.4

3.5

YOLOv3–tiny和YOLOv5s的检测结果如图5

所示。仅拥有2种尺寸特征图输出的YOLOv3–tiny

模型在检测“柑橘”时，会出现较严重的漏检，与表2

中的结果相符，不能很好地检测存在粘连且尺寸较

小的目标；用YOLOv3–tiny和YOLOv5s的检测时

均出现了“多重标签”的情况，即同时标有“空果筐”

和“满果筐”的标签，这是由于模型不能准确地提取

图像的语义信息，模型存在特征表达能力不足的问

题。改进后模型的检测效果如图5–c所示。以运输

机典型的搭载情况进行检测分析，当模型检测搭载1

层“空果筐”、混载1层“空果筐”和“柑橘”以及搭载2

层“空果筐”和“柑橘”时，不会出现漏检和误检。

496

湖南农业大学学报(自然科学版)

2023年8月

a YOLOv3–tiny；b YOLOv5s；c 搭载1层果筐；d 搭载1层果筐和柑橘；e 搭载2层果筐和柑橘。

图5 改进前后模型的检测效果

Fig.5 Detection results of the model before and after improvement

4 结论

以果园山地单轨运输机柑橘搭载为研究场景，

采集果园自然光环境下运输机搭载柑橘图像数据

集；通过改进YOLOv5s模型，在颈部网络引入

CBAM模块和使用多尺度训练策略，提升模型检测

精度；使用通道级模型剪枝，实现模型轻量化，实

现了对“空果筐”“满果筐”“柑橘”的目标检测。结果

表明，所提出的检测方法检测精度达93.3%，在

Jetson Nano上检测速度为78 ms/帧，适合部署于计

算资源有限的嵌入式设备。后续将探索深度学习模

型高效压缩的方法，在保障检测精度的前提下进一

步提高模型的检测速度，并将该检测模型辅助三维

数字建模，用于水果搭载情况分析。

参考文献：

[1] LIU Y，HONG T S，LI Z．Influence of toothed rail

parameters on impact vibration meshing of mountainous

self-propelled electric monorail transporter[J]．Sensors，

2020，20(20)：5880

[2] 盛玲玲，宋淑然，洪添胜，等．广东省山地果园机械

化现状与发展思考[J]．农机化研究，2017，39(11)：

257–262．

[3] 李震，洪添胜，吕石磊，等．山地果园自走式电动单

轨运输装备的研究进展[J]．现代农业装备，2020，41(4)：

2–9．

[4] 吕石磊，魏志威，吴奔雷，等．果园单轨运输机在轨

状态感知系统研制[J]．农业工程学报，2020，36(15)：

56–64．

[5] 吕石磊，梁尹聪，李震，等．基于超高频RFID双天线

双标签对照的果园单轨运输机定位[J]．农业工程学报，

2018，34(4)：71–79．

[6] 张毅，王彦博，付华森，等．基于机器视觉的不规则

烟包校对码垛系统[J]．烟草科技，2019，52(6)：105–111．

[7] HUSSIN R，JUHARI M R，KANG N W，et al. Digital

image processing techniques for object detection from

complex background image[J]．Procedia Engineering，2012，

41：340–344．

[8] 毕松，高峰，陈俊文，等．基于深度卷积神经网络的

柑橘目标识别方法[J]．农业机械学报，2019，50(5)：

181–186．

[9] 金秋，李天剑．仓储环境下基于深度学习的物体识别

方法研究[J]．北京信息科技大学学报(自然科学版)，

2018，33(1)：60–65．

[10] 王晨，袁庆霓，白欢，等．面向仓储货物的轻量化目

标检测算法[J]．激光与光电子学进展，2022，59(24)：

74–80．

[11] 汤寓麟，边少锋，翟国君，等．侧扫声纳检测沉船目

标的改进YOLOv5法[J/OL]．武汉大学学报(信息科学

版)：1–11(2021–09–01)．/10.13203/

s20210353．

[12] BOCHKOVSKIY A，WANG C，LIAO H．YOLOv4：

Optimal Speed and Accuracy of Object Detection[OL].

arXiv preprint arXiv：/abs/2004.10934，

2020．

[13] REDMON J，FARHADI A．YOLO9000：better，faster，

stronger[C]//2017 IEEE Conference on Computer Vision

and Pattern Recognition．Honolulu，USA：IEEE，2017：

6517–6525．

[14] WOO S，PARK J，LEE J Y，et al．CBAM：Convolutional

block attention module[C]//Proceedings of the European

Conference on Computer Vision．Munich，Germany：

IEEE，2018：3–19．

[15] 郝帅，马瑞泽，赵新生，等．基于卷积块注意模型的

YOLOv3输电线路故障检测方法[J]．电网技术，2021，

45(8)：2979–2987．

[16] 张锦，屈佩琪，孙程，等．基于改进YOLOv5的安全

帽佩戴检测算法[J]．计算机应用，2022，42(4)：

1292–1300．

[17] 胡嘉沛，李震，黄河清，等．采用改进YOLOv4–Tiny

模型的柑橘木虱识别[J]．农业工程学报，2021，37(17)：

197–203．

责任编辑：罗慧敏

英文编辑：吴志立