第42卷第3期2021年3月
中国农机化学报
Journal of Chinese Agricultural Mechanization
Vol.42No.3
Mar.2021
下辈子不一定还能遇见你DOI:10.13733/j.j cam.issn.2095-5553.2021.03.011
改进RetinaNet的刺梨果实图像识别
闫建伟1,2,张乐伟】,赵源】,张富贵1
(1.贵州大学机械工程学院,贵阳市,550025; 2.国家林业和草原局刺梨工程技术研究中心,贵阳市,550025)
摘要:为实现加工车间刺梨果实的快速识别,提出一种基于改进的RetinaNet刺梨果实图像的识别方法。基于RetinaNet 的模型,对RetinaNet框架中Focal loss的bias进行改进,使其能根据不同的情况控
制bias的取值,再运用维度聚类算法出Anchor的较好尺寸并匹配到相对应的特征层,对卷积神经网络结构进行优化。通过改进RetinaNet目标检测算法对7426幅刺梨果实图像进行检测识别,并与原始RetinaNet目标检测算法对比。试验结果表明:改进的RetinaNet网络模型识别方法对6类刺梨果实的识别率分别为99.47%,91.42%、96.92%,90.92%,96.89%和93.53%,平均识别率为
94.86%;相对于原始RetinaNet目标检测算法,改进算法的识别准确率提高4.21%,单个刺梨果实检测时间由60.99ms
缩减到57.91ms,检测时间缩短5.05%。本文改进算法对加工车间刺梨果实的识别具有较高的正确率和实用性。
关键词:卷积神经网络;刺梨果实;RetinaNet;标检测;图像识别
中图分类号:TP391.4文献标识码:A文章编号:2O95-5553(2021)03-0078-06
闫建伟,张乐伟,赵源,张富贵.改进RetinaNet的刺梨果实图像识别[J].中国农机化学报,2021,42(3):78:83
Yan Jianwei,Zhang Lewei,Zhao Yuan,Zhang Fugui.Image recognition of Rosa roxburghii fruit by improved RetinaNet[J].
Journal of Chinese Agricultural Mechanization,2021,42(3):78—83
0引言
近年来,随着深度学习理论研究的不断深入,基于Anchor目标检测框架已成为国内外卷积神经网络领域研究的热点。当前,对基于Anchor的目标检测框架的研究主要分为两类:一类是基于区域候选框的二阶段目标检测框架(two stage)算法,该方法先在图像上生成若干可能包含目标的候选区域,然后通过卷积神
经网络(Convolutional Neural Network,CNN)分别对
这些候选区域提取特征,最后通过卷积神经网络进行
目标位置的回归与类别的识别,典型的算法有R:CNN(Re g ion Convolutional Neural Network)[1],
SPPNet(Spatial Pyramid Pooling Networks)+]、Fast
RCNN34〕、Faster RCNN56]、FPN(Feature Pyramid
Networks)[7]、R—FCN(Region-based Fully Convolutional Network)等;另一类为一-阶段目标检测框架(one stage)算法,该方法直接从图片获得预测结果,将整个目标检测任务整合成一个端到端的任务,而且只处理一次图像即可得到目标的类别与位置信息,典型的算法有SSD(Single Shot multibox Detector)、YOLO(You Only Look Once)10"〕、DSSD(Deconvolutional Sin g le Shot Detector)[13]、FSSD(Feature fusion Single Shot multibox Detector)[14]以及RetinaNet15〕等。二阶段目标检测算法比一阶段目标检测算法具有更高的准确率和定位精度,而一阶目标检测算法RetinaNet在COCO测试集上的结果高于二阶目标检测模型[15]。在RetinaNet 目标检测算法方面,宋欢欢等+6]将其网络层数增加到152层,并且加入了MobileNet的设计思想,对其加速和压缩,有效地提高了准确率。刘革等[17]为了提高模型的前向推断速度,用MobileNet V3替换ResNet—50[18]用于基础特征提取网络。张物华等[19]在基础特征提取网络中加入特征通道注意力机制模块,突出特征图中的特征通道,以提高精度。王璐璐等+0]在C3、C4层加入通道注意力模块,同时,为缓解网络的过拟合问题,在通道注意力模块的全连接层加入随机失活机制,从而增强网络的鲁棒性。谢学立等[21]在RetinaNet结构中分别添加bottom-up短连接通路以及全局上下文上采样模块,用来增强检测层特征的结构性和语义性。以上改进虽然准确率有一定提高,但检测效率却显著降低了。
针对生产车间刺梨果实识别,人工分拣分级效率
:2020616:20201027
*基金项目:贵州省普通高等学校工程研究中心建设项目(黔教U KY字:2017]015);贵州省科技计划项目(黔科合重大专项字:2019]3014-3,黔科合成果:2019]4292号,黔科合平台人才:2019]5616号)
第一作者:闫建伟,男,1980年生,河南鹿邑人,博士,副教授,硕导;研究方向为深度学习、智能装备等°E-mail:jwyan@gzu.edu
第'期闫建伟等:改进RetmaNet 的刺梨果实图像识别79
低,无法满足工业化加工刺梨果实的要求,本文拟选择 一阶目标检测算法中的RetmaNet 目标检测算法,以 RetimaNet 模型为基础,改进bias 公式以及运用K- means + +聚类算,并增
据和合理调 ,以期实现对 加工车间的果实进行高精度、快速识别。
1数据采集与处理
1.1数据采集
本文刺梨果实图像于2019年9月28日在贵州省
龙里县 镇茶香 产业示范园区采集,品种为贵龙5号,集 807幅。对刺梨果实用尼康 (Nikon)D750单反相机进行拍照,原
式为.
JPG,分辨率为6 016像素X4 016像素。刺梨果实图
集 示例如图1所示。
图1刺梨果实图像样本示例
Fig. 1 Sample image of Rosa roxburghii fruit
1.2数据集样本及标签制作
从拍摄到的807幅
果实照片中,将刺梨
果实分为6类。通过ACDSee20软件将807幅大小为
6 016像素X4 016像素的原图裁剪为多幅大小为902像素X602像素的完全包
果实的 ,对裁剪的 行 翻转以及
45°、90°和270°,最终
得到7 426幅刺梨样本。再使用Labellmg 软件对
7 426幅
行
签 。
1.3刺梨果实分类
果实
分级简图,如图2所示。
1.2
2.1
3.1 3.2
果 图 像分
图
Fig. 2 Classification diagram of Rosa roxburghii fruit image
针对采摘后的刺梨果实进行分级,按颜、果实好
坏等情况,将刺梨果实图像分为6类:1.1、1.2、2.1、
2.2、
3.1、3.2;其中,1.、2.、3.等按照颜不同进行分级 + •:颜为青、2.:颜
黄、3.:非以上两种情
况]。.1、.2等按照果实好坏进行分级[.1:非坏果、.2:坏 果]。分类后各类刺梨照片数量较均衡,有利于后期 理'
2 网络模型RetinaNet 的改进
RetimaNet 模型由特征提取网络、特征金字塔网络、 子网络等三个模 ,其 结构如图3所示。图3
中A 表示特征提取
,使用深度残 ResNet 来对 特征的 提取;E 表示特征 塔网络,A 中产生的特征
行重新组合,完成对
特征的
精细化提取,以 更好地表达 ;C 表示
〕
,用于对待
的 分类和定位。
A B C
图3 RetinaNet 的网络结构
Fig. 3 Network structure of RetinaNet
2. 1偏差bias 的改进
由于 RetinaNet 的核心是 Focal Loss ,在 Focal Loss 中,用于分类卷积的bras ,可以在训练的初始阶
段提高positive 的分类概率以及决 经云产生的正 负激励的难易程度。针对其无 取值,在原有式
(1)的 行了改进,改 的计算公式如式(2)
长城m3多少钱所示'
bias = log[(1 —
(1)
bias =a log [(1一 .)/.]" + ,
(2)
可以控制b z a $的取值,根据实际情况,最终
得出# = 1.0、"= 1.1、, = 0.0、# = 0.01,使得预测图像目
标的准确性上升。
2.2 K-means+ +聚类算法
Anchor 机制可有效解决目标检测任务中存在的 尺度及宽高比例变化范围过大等问题。由于原始 RetinaNet 使用的是非
的数据集,所以原始
RetinaNet 所选定的Anchor 尺度和宽高比例在本文
的
不适用。
用K-means + +聚类算法「坷,使其更加适 合
,定位框更加精准。通过对
端午祝福短信简短据集的
实标注 行聚 ,真实标注 宽 到模型 大小 的聚 结果如 4 所示
'
80中国农机化学报2021年
图4真实boxes长宽聚类值
Fig.4Cluster values of length and width of real boxes 195,230X230]作为对应的5个特征层的Anchor尺寸,以[0.5,1.0,1.5]作为Anchor的长宽比。
3网络模型训练步骤
改进后的卷积神经网络模型,对刺梨果实进行识别的如图5所示。
违章缴费待的果实图片,首先在特征提取网络图5(a)中由深度残差网络ResNet50来完成对图像特征的提取;其特征金字塔5(b)F图5(a)中产生的特征行重新组合,以更好地表达;5(c)、图5(d)中,
由图4可知,有三个聚类簇,刺梨的宽高聚集在[35,33]、[40,39]以及[45,44]附近。
因此,本文将[90X90,125X125,160X160,195X 运用K—means++聚类算法优化Anchor参数,以及对其中的bas公式进行改进,使其分类和定位更加准确。
(a)ResNet(b)feature pyramid net class+box
subnets
(c)class subnet(top)(d)box subnet(bottom) class+box
subnets
图5卷积神经网络模型改进后的训
Fig.5Improved training steps of convolution neural network model
4试验与结果分析
4.1软件及硬件
电脑配置:Windows10,64位操作系统。笔记本电脑,GeForce GTX1050Ti显卡,8G显存;Intel(R)式中:TP——正样本被正确识别为正样本;
TN——负被正确识负:;
N----的。
改进前后RetinaNet g标检测算法在不同训练轮次的准确率和损失率如图6、图7所示。
Core(TM)i5—8300H处理器,主频2.30GHz,磁盘内存128GS,编程语言是Python编程语言。
从7426幅刺梨样本中,选出90%即6683幅刺行,余下10%即743幅行最终检测。采用RetinaNet算法,在Keras框架下,并且设置该模型的batch-size为1、epochs为50、steps为10000
4.2结果分析
4.2.1准确率和损失率对比
识率Acc的计算如式(3)所示,即预测正确的样本比例。1.0
0.8
0.6
0.4
0.2
—train Acc
—train loss
--val Acc
val loss
010********
epoch
Acc TP+TN
图6原始RetinaNet目标检测算法在
同平均Acc与loss
Fig.6AverageAccandlosscurveoforiginal
RetinaNettargetdetectionalgorithmindi f erentrounds N
(3
)
第'期闫建伟等:改进RetinaNet的刺梨果实图像识别81
—train Acc
---train loss
--val Acc
…val loss
V0.8
0.6
0.4
0.2
010********
epoch
图7改进后RetinaNet目标检测算法在
不同轮次的平均Acc与loss曲线
Fig.7Average Acc and loss curve of the improved
RetinaNet target detection algorithm in different rounds
由图6、图7可知,由于改进了RetinaNet目标检测算法的核心部分Focal Loss中的bias公式,针对刺果实的识别,改进的RetinaNet算法集、测试集的率90%以上,相对于原始RetinaNet算法,训练集、测试集的率均提高1.80%;训练集损失率集损失率的收敛趋相同,训练集、测试集的损失率降低了 1.27%。可,改的RetinaNet算对 果实的
识别具有较高的识别率。
4.3.2标记框对比
随机选取一张未经训练的刺梨果实照片(像素大小:902X602)如图8所示,分别在原始RetinaNet目算改进RetinaNet算法进行识,识别效果(戈度为80%以上的识)如图9、图10所示。
图8
Fig.8Untrained photos
图9原始RetinaNet目标检测算法识别效果
Fig&9Recognitione f ectoforiginal
RetinaNettargetdetectionalgorithm
图10改进后RetinaNet目标检测算法识别效果
Fig&10Recognitione f ectofimproved
RetinaNettargetdetectionalgorithm
由9、10可,改的RetinaNet
算法相对于原始RetinaNet目标检测算法有较好的效果:可以使Anchor尺寸更加实值,从而降低模型的度;识率有不同程度提高;在识1确率80%以上时,可以更多的刺梨果实;原始RetinaNet g标检测算法中错误的不现。4.3.36种不同刺梨果实分级对比
在未经过的,按照6种不同刺梨果实分级方式,随机各选取出1种,裁剪素大小为902X602的图片,如图11所示,将其分别在原始RetinaNet算改RetinaNet
算法进行识别,识别结果如图12、图13所示。
图116种刺梨果实拼接
Fig.116kinds of Rosa roxburghii fruit splicing
图12原始RetinaNet目标检测算法识别效果
Fig&12Recognitione f ectoforiginal
RetinaNettargetdetectionalgorithm
从未经训练的588幅刺梨果实样本中随机选取若干照片,分原始RetinaNet算法和改进的RetinaNet算法中进行分类识别。,像素对检测时间有一定的影响,提的单幅照片像素为300X300;含有单个刺梨果实。6类刺梨果实对比情况如表1所示
。
82中国农机化学报2021年
图13改进后RetinaNet目标检测算法识别效果Fig.13Recognition effect of improved
RetinaNet target detection algorithm
改进前后6类刺梨果实识别准确率及检测时间对比如表1所示,改进后的RetinaNet g标检测算对6果实的识率均有提高,提高的幅度从0.14%,0.68%,1.32%,1.83%,2.60%到4.21%不等,识别准确率最高提高了 4.21%,识别准确率提高了 1.80%o
单个刺梨果实检测时间为由60.99ms缩减到57.91ms,降低了3.08ms,与原始RetinaNet目标检测算相比缩短了 5.05%o
表1改进前后6类刺梨果实识别准确率及检测时间对比
一带路一路指什么Tab.1Comparison of accuracy rate and detection time of six kinds of Rosa roxburghii fruit before and after improvement
识别准确率/%
模型名称
111221223132
识率/%单幅检测时间/ms
原RetinaNet
98798882950989609268933993066099
改RetinaNet
99479142969290929689935394865791
对比+0.68+260+183+132+421+014+180—308
5结论
1)本文针对原始RetinaNet g标检测算法进行了改进,通过改进RetinaNet框架中Focal loss的bias公式、运用维度聚类算Anchor的较好改进原的ReHinaNeH算'的识
模型对加工车的果实率较高,能够为果实的快速识别奠
2)过改,原ReHinaNeH算相
比,本文改进RetinaNet算更加;识别率更咼,最咼提升了 4.21%,平均提咼了 1.80%。单幅单个果实由60.99ms缩减到57.91ms,降低了3.08ms。本文改进RetinaNet算法平均识率均有不同程度提高,检测时间均有不同程度降低。
3)本文改进RetimNet目标检测算法,为工业生产刺梨加工车间的刺梨果实快速识别提
参考文献
[1,Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C,.2014IEEE Conference on Computer Vision and Pattern Recognition,2014.
[2,He K,Zhang X,Ren S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J,.
IEEE Transactions on Pattern Analysis k Machine Intelligence,2015,37(9):1904-1916.
[3,Girshich R.Fast R-CNN[CIEEE International ConferenceonComputerVision&IEEE,2015!1440-1448& [4,Ross Girshick&Fast R-CNN[C,&IEEE International
ConferenceonComputerVision ICCV)&IEEE,2016& [5,RenS,HeK,GirshickR,etal&FasterR-CNN!Towards
real-time object detection with region proposal networks[J,.
IEEE Transactions on Pattern Analysis k Machine Inte l igence,2017,39(6)!1137-1149.
[6,Ren S Q,He K M,Girshick R,et al.Faster R—CNN: Towardsreal-time object detection with region proposal networks[J,.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1—14.
[7,RenS,HeK,GirshickR,etal.FasterR-CNN!Towards
real-timeobjectdetection withregionproposalnetworks[J,& IEEE Transactions on Pattern Analysis k Machine Inte l igence,2017,39(6)!1137-1149&
[8,Dai J,Li Y,He K,et al.R—FCN:Object detection via region-based fully convolutional networks[C,.Advances in neural-nformat-onprocess-ngsystems,2016!379—387. [9,Liu W,Anguelov D,Erhan D,et al.SSD:Single shot multibox detector[C,.European Conference on Computer Vision.Springer International Publishing,2016.
[10,Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C,.IEEE
Conference on Computer Vision and Pattern Recognition.
IEEE,2016:779—788.
[11,Redmon J,Farhadi A.YOLO9000:Better,faster, stronger[C,&IEEE Conferenceon Computer Visionand
Pattern Recognition.IEEE,2017:6517—6525.
[12,Redmon,Joseph,Farhadi,et al&YOLO v3!An incrementalimprovement[EB/OL,h t p//arxiv org/
pdf/180402767pdf,2018
[13,FuC Y,Liu W,Ranga A,etal DSSD!Deconvolutional
singleshotdetector[EB/OL,h t ps!//www researchgate
net/publication/312759848_DSSD_Deconvolutional_Single_
Shot_Detcctor,
双球20210982017.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论