基于YoloV3与轻量型网络的衣物识别算法研究--慧智精品网

第28卷第2期2021年2月仪器仪表用户INSTRUMENTATION

Vol.282021 No.2

基于YoloV3与轻量型网络的衣物识别算法研究

赵天晖

（北方工业大学信息学院，北京 100144）

摘要：

衣物图像的识别在商业领域和社会生活领域中均有着很大的应用价值，但目前的目标识别模型在衣物识别上的准确率较低并且参数量较大。因此，本文改进了YoloV3目标识别网络，将主干部分特征提取网络替换成EfficientNet 轻量级网络，减少参数量的同时能够快速准确地识别出衣物类别。测试结果标明，算法识别准确率和检测速度有一定提升，且参数量从约620亿FLOPs 降低到约20亿FLOPs，计算量显著降低。关键词：目标检测；轻量级网络；YoloV3；衣物识别

中图分类号：TP312 文献标志码：A

Research on Clothing Recognition Algorithm Based on YoloV3

and Lightweight Network

Zhao Tianhui

（Electronics and Information Engineering, North China University of Technology,Beijing,100144,China）

Abstract：The recognition of clothing images has great application value in both commercial and social life fields, but the current target recognition models have low accuracy in clothing recognition and large parameter quantities. Therefore, this paper improves the YoloV3 target recognition network and replaces the main feature extraction network with the EfficientNet lightweight network, which reduces the amount of parameters and can quickly and accurately identify the clothing category. The test results indicate that the recognition accuracy and detection speed of the algorithm in this paper have been improved to a certain extent, and the amount of parameters has been reduced from about 62 billion FLOPs to about 2 billion FLOPs, and the amount of calculation is significantly reduced.

Key words：target detection；lightweight network；YoloV3；clothing recognition

DOI:10.3969/j.issn.1671-1041.2021.02.003

文章编号：1671-1041(2021)02-0010-05

收稿日期：2020-12-21

作者简介：赵天晖（1996-），男，辽宁锦州人，硕士，研究方向：图像处理，深度学习。

0 引言

深度学习在计算机视觉中有着很多应用，比如，交通领域中的无人智能驾驶，医学领域中的医疗图像智能诊断，教育领域中的学生注意力检测等。目标识别中的人脸检测、车辆检测和行人计数已经成熟地运用到社会生活中的方方面面。

在智能家居领域，通过目标识别方法来识别衣物种类，可以将整个方案与空调控制台相结合。通过摄像头识别出人身穿的衣物种类从而调节空调的温度，实现真正的不用手动操作的智能家居。

1 相关研究

截至今日，目标检测体系逐渐趋于成熟。目标检测模

赵天晖·基于YoloV3与轻量型网络的衣物识别算法研究

第2期11

型主要分为两大类别：两阶段模型和单阶段模型。知名的

R-CNN系列目标检测模型作为两阶段模型的代表，其主要

做法是：首先，将输入的图片划分区域，获得数个候选框，

再对每个候选框进行分类，最后回归出每个目标的检测范

围。但两阶段模型在计算效率方面并不占优，难在短时间

内获得有效的目标检测结果，并不能适用于智能家居领域

的实时检测。

不同于两阶段模型，Yolo模型和SSD模型作为单阶段

模型的代表，可以在网络中直接检测出目标的位置和种类

及其置信度。这一操作使得目标检测的时间大大减少，令

目标检测的实时性成为可能。由于单阶段目标检测模型在

步骤上相较于双阶段模型少了一步，所以精度上较后者略

逊一筹。

衣物识别将是未来智能家居领域的关键技术之一。考

虑到智能家居应用中硬件条件的限制，需要使用轻量级网

络来代替复杂网络进行衣物识别过程，进而减轻对硬件资

源、规模以及性能的要求。目前，YoloV3模型相对还比较

复杂。另一方面，与普通的日常照片图像比较，衣物的图

像中干扰要素较多，比如光线、角度、衣物材质等，这些

因素将直接影响衣物识别效果与准确率。

综上，有必要对YoloV3目标识别模型进行改进。本文

提出以EfficientNet作为主干提取网络替换YoloV3原有的

主干提取网络Darknet，增加特征提取网络的深度、宽度以

及分辨率，在保证整个深度神经网络参数更少、更轻量化

的同时，提高衣物识别的准确率。

2 数据集

深度学习需要大量的训练数据作为支撑。选择一

个数据丰富、质量尚佳的数据集对未来的深度学习中训

练出精度高的模型起着至关重要的作用。本文采用的是

DeepFashion2数据集，该数据集作为当前最大的衣物数据

集，包含着49.1万张有关衣物的图像，其中包含80.1万件

服饰，囊括了13种流行的服饰类别。该数据集不仅适用于

衣物检测和识别，还可以用于姿态估计和语义分割等工作。

3 目标识别算法

本文的改进方案是将EfficientNet作为YoloV3的特征提取网络，并且保留原有的多尺度融合的结构，保证了无论衣物在图像中或大或小，都可以获得比较好的识别准确率。

3.1 特征提取网络EfficientNet网络模型

卷积神经网络可以通过不断扩大网络的规模来实现更高的识别准确率。例如，ResNet-18通过加深网络层数达到ResNet-200，这使得在ImageNet top-1上取得84.3%的mA均值平均精度。目前为止，有许多不同的方法来扩展卷积神经网络，常见的方法有扩展网络的深度和网络的宽度，最近新兴起来的方法还有改变输入图像的分辨率来让网络能提取更多的特征。在之前的深度学习工作中，只使用3个方法之一来进行神经网络的缩放。后来，不断进化成对两个维度任意缩放调整，但是这个过程非常繁琐，同时也许需要考虑缩放过程中苛刻的条件，最主要的就是精度和效率，实验后的结果还不一定优于改进前的网络。

EfficientNet也考虑如何扩大卷积神经网络的规模来获得更高的准确率和效率，实验最终获得的结果是同时平衡网络深度、网络宽度和输入图像的分辨率三者对精度、参数量和浮点运算量进行提高和优化。将EfficientNet中的第i个卷积层看作函数映射：

Y i=F i(X i)

Y i为输出张量，X i为输入张量。假设输入图像的高度为H i，图像宽度为W i，图像的通道数为C i，定义整个卷积图2 EfficientNet扩大网络规模示意图

Fig.2 Schematic diagram of EfficientNet

expanding network scale

图1 DeepFashion2数据集图像

Fig.1 Images of DeepFashion2 dataset

（1）

第28卷12仪器仪表用户INSTRUMENTATION

网络N是由k个卷积层构成的，所以将N表示为：

N=F k⊙...⊙F

⊙F1(X1)=⊙k F j(X1)

一般情况下，一个深度神经网络模型是有多个相同的

卷积层存在，多个结构相同的卷积层组成一个阶段，然后

以阶段为单位，那么深度卷积网络就可以定义为：

（3）

这里面的1…s表示阶段的不同类型，F i代表的是对第

i层的卷积操作，L i代表的是F i在第i个阶段中相同结构卷

积层的个数。为了避免搜索空间过大，实验过程中首先固

定了卷积网络的基本结构，只需要改变上述公式中的3个

缩放的维度：

1）L i的缩放改变的是网络的深度，L i越大意味着重复

开药店需要什么手续的卷积层数量越多，代表着卷积神经网络的深度增加。

2）C i的缩放改变的是输入图像的通道数，那么网络的

宽度也将跟着改变。

3）H i和W i的缩放改变的是输入图像的分辨率。

这依然有3个数值需要进行调整，搜索空间也非常大，

所以EfficientNet设计了一个条件：在卷积神经网络中，卷

积层只能使用相同的比例常数来进行统一地缩放。这一条

件用数学语言描述为：

（4）

这里面的d、w、r分别代表着网络深度、网络宽度、

输入图像分辨率的缩放的常数倍率。根据公式，需要在运

算内存和运行运算效率的约束下来优化d、w和r，从而得到识别最高的精度。EfficientNet提出了一种新的复合缩放方法，使用复合系数φ对网络的深度、宽度和输入图像的分辨率进行均匀缩放，将这3个待优化的参数都用φ指数表示，同时为了减少网络搜索时的计算量需要对底数做一定的限制，具体的限制公式也包括了FLOPS方面，d对FLOPS的影响为系数同等倍数的影响，而w和r对FLOPS 的影响为系数的平方：

深度：d=αφ

宽度：w=βφ

分辨率：r=γφ

< α·β2·γ2≈2

α≥1，β≥1，γ≥1

图3 MBConv卷积块具体结构

Fig.3 The specific structure of the MBConv

convolution block

表1 EfficientNet-B0网络结构

Table 1 EfficientNet-B0 network structure

由这个公式，通过网络搜索的结构搜索出一个基本结构，被称为EffficientNet-B0，具体结构及细节见表1。

表1中，可知EfficientNet中是由多个MBConv组成实现的，每一个MBConv卷积块的具体结构如图3所示。

接下来从基本结构EfficientNet-B0开始，通过两个步骤来对模型进行扩展：

1）首先，固定的系数使其等于1，然后通过网络搜索

（2）

（5）（6）（7）（8）

赵天晖·基于YoloV3与轻量型网络的衣物识别算法研究第2期13

图4 修改后的Yolo算法中的多尺度融合过程

Fig.4 The multi-scale fusion process in the modified

Yolo algorithm

出处图5 EfficientNet为主干提取网络的mAP平均精度值结果图

Fig.5 The result of the average accuracy value of mAP of the

EfficientNet backbone extraction network

表2 不同算法对衣物识别的结果对比

美国军事实力

Table 2 Comparison of the results of different algorithms

for clothing recognition

到α、β、γ的最优解。假设有两倍的可用运算资源，搜索后可得基本结构EfficientNet-B0获得的α=1.2、β =1.1、γ=1.15。开机自动拨号

2）然后，固定第一步的α、β、γ参数，然后选取不同的φ的取值获得EfficietnNet-B1到EfficietnNet-B7的网络结构。

在衣物识别的深度神经网络构建中，选取的是EfficientNet-B2模型，该网络结构的宽度系数w 为1.1，网络结构的深度系数d 为1.2，输入图像的分辨率系数为260，这一数值不仅符合所选用的数据集，同时也充分利用了可调用的运算资源。

3.2 YoloV3目标检测算法

YoloV3中采用3个不同的尺度来对特征图片进行检测。整个网络使用了特征金字塔的方案，这样在不同尺度下对不同的目标进行检测。3个不同的尺度分别为13×13、26×26和52×52。对于DeepFashion2数据集中，共有13个类别，那么每个预测框对应数据集中每一个种类都会输出一个概率，YoloV3的网络中使每个单元格可以预测3个不同尺寸的预测框。那么，每个预测框的参数就有5个参数分别为预测

物体的中心点横坐标X、纵坐标Y、预测框的宽度W、高度H 和置信度C。所以，获得的通道数为3×（13+5）=54。再采用上采样的方法来完成多尺度融合的操作。例如，让13×13的图像转换成26×26的图像，再与原本的26×26的图像进行融合，最后进行26×26尺度的目标识别操作。多尺度融合会对大小不一的物体的检测更加精准。

3.3 将YoloV3的主干提取网络替换成EfficientNet

YoloV3目标识别网络的主干提取网络会对输入图像进行一层一层的特征提取，在特征提取的同时进行着下采样的操作。特征层不断压缩长和宽，提取最后3个尺寸的特征层构成后面的特征金字塔，若将YoloV3中的DarkNet53替换成EfficientNet，需要到EfficientNet 与DarkNet53最后3个相同的尺寸的特征层，尺寸分别为（52，52，256），（26，26，512），(13,13,1024)。由于原始YoloV3中DarkNet53中通道数远远大于EfficientNet 的通道数，这会使得网络变换过大并且促使拟合效果大大降低，所以减小通道数是较好的选择，将通道数减小到60，120和352。

4 识别结果分析

本课题使用深度学习的方法，采用Anaconda 环境，Python3.6语言，PyCharm 编辑器进行。以数据集Deepfashion2的19.1万张图片作为训练集，验证集为3.2万张衣物图片，最后随机选择1000张新图片作为测试集。

深度学习的算法使用了未加改进的YoloV3目标检测算法和以EfficientNet、DarkNet、GhostNet、FBNet 4种不同的网络为主干提取网络改进后的YoloV3目标检测算法，训练结果见表2。

由表2可见，以EfficientNet 为主干提取网络的YoloV3的目标检测算法在Deepfashion2

数据集上由良好的表现，

汽车保险怎么算

第28卷

仪器仪表用户INSTRUMENTATION 且后续在测试的过程中也没有发生过拟合等现象。

5 结论

训练结果证明本课题进行的研究方法是有效的，对提高衣物识别的速度和减轻识别网络的体积具有意义。在识别短袖衣服、长裤、短裤等方面具有良好的分类效果。而在识别夹克外套、短裙等方面容易出现偏差，造成这一现象的主要原因是数据集的类别分布不均。

改进前的YoloV3算法的平均精度值为58.74%，EfficientNet 作为主干的特征提取网络的算法将平均精度值

图6 衣物实时检测截图

Fig.6 Screenshot of real-time clothing detection

提高到59.78%，同时参数量FLOPS 由62B 降低到约2B。实时监测的速度可以达到29.96帧每秒，高于改进之前的27.45帧每秒，同时良好地保证了识别的准确率。

参考文献：

马小陆，方洋，王兵，等.一种改进的YOLO v3红外图像行人检测方法[J].湖北理工学院学报,2020,36(06):19-24,38.

唐熔钗，伍锡如.基于改进YOLO-V3网络的百香果实时检测[J].广西师范大学学报：自然科学版,2020,38(06):32-39.

秦丹峰，尹相辉.改进的YOLO V3算法及其在小目标检测中的运用分析[J].电子世界,2020(20):46-47.

冯艳君，刘军，周台典，等.基于改进特征提取网络和YOLO V2的手势识别[J].电子世界,2020(19):198-200.

刘洋，姜涛，段学鹏.基于YOLOv3的复杂天气条件下人车识别方法的研究[J].长春理工大学学报：自然科学版,2020,43(06):57-65.

Tan M, Le Q V. Efficientnet: Rethinking model scaling for convo-lutional neural networks[J].arXiv preprint arXiv:1905.11946,2019.Redmon J, Farhadi A. Yolov3: An incremental improvement[J].arXiv preprint arXiv:1804.02767,2018.

Yang M, Yu K. Real-time clothing recognition in surveillance videos[C].2011 18th IEEE International Conference on Image Processing.IEEE,2011:2937-2940.

Liu Z, Luo P, Qiu S, et al. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations[C].Proceedings of the IEEE conference on computer vision and pattern recognition,2016:1096-1104.

Ge Y, Zhang R, Wang X, et al. Deepfashion2: A versatile benchmark for detection, pose estimation, segmentation and re-identification of clothing images[C].Proceedings of the IEEE conference on computer vision and pattern recognition,2019:5337-5345.

（上接第60页）

[1][2][3][4]

[5]

[6]

[7]

[8]

[9]

[10]设计试验中将会针对性地验证。

参考文献：

田青旺.浅谈AP1000核电站PLS&DDS功能设计[J].中国高新技

术企业,2014(8):18-21.

IEEE Standard344-1974.IEEE Recommended Practice for

Seismic Qualification of Class 1E Equipment for Nuclear Power Generating Stations[S].

U．S．NRC Regulatory Guide 1.100，Revision 2. Seismic

Qualification of Electrical and Mechanical Equipment for Nuclear Power Plants[S].

孙季红.AP1000核电站模拟机KVM网络的优越性[J].信息技术红颜知己啥意思

与信息化,2015(2):33-35.

王睿恬.快思聪控制系统的工程设计和应用[J ].电声技

术,2003(11):21-22.

马鸿杰.上海电网调度控制中心集中控制系统设计[J].工业控制

计算机,2006(19):4-8.

钮鑫.智能会议室的设计研究[J].河南科技,2018(627):40-41.

[1][2][3][4][5][6]

[7]

慧智精品网

基于YoloV3与轻量型网络的衣物识别算法研究

发表评论

推荐文章

三八妇女节的来历和意义一览

妇女节的文化符号与象征

2024年各种节日纪念日大全一览表

中国三八妇女节的起源介绍

2025妇女节是第几个妇女节

热门文章

表白情书600字写给男生_情书

女孩追男孩的方法

女人如何轻松追到男人女人追男人的方法

爱上了女同事,该怎么说才最合适

怎么和内向的女生聊天

表白该怎么说

关于拒绝男生表白的话

2024七夕节表白需要准备什么

女生给男生写情书范文6篇

给喜欢的人表白方式

怎么对男生表白

向男生表白的话委婉点

个性_男生表白女生的话

热脸贴冷屁股的句子

我对我的男朋友说别人1句不好他反驳10句

追一个人被拒绝的文案短句

约会被拒绝后的高情商回复

面对拒绝的应对策略

关于有趣又有深意的句子沙雕沙雕到极致的句子

女生拒绝男生表白的句子

最新文章

2025妇女节是第几个妇女节

三八妇女节感谢女性的奉献与付出

三八妇女节的庆祝方式和习俗

女生节在每年的几号?

三八妇女节引号

已婚男人的情书

标签列表

慧智精品网

基于YoloV3与轻量型网络的衣物识别算法研究

发表评论

推荐文章

三八妇女节的来历和意义一览

妇女节的文化符号与象征

2024年各种节日纪念日大全一览表

中国三八妇女节的起源介绍

2025妇女节是第几个妇女节

热门文章

表白情书600字写给男生_情书

女孩追男孩的方法

女人如何轻松追到男人女人追男人的方法

爱上了女同事,该怎么说才最合适

怎么和内向的女生聊天

表白该怎么说

关于拒绝男生表白的话

2024七夕节表白需要准备什么

女生给男生写情书范文6篇

给喜欢的人表白方式

怎么对男生表白

向男生表白的话委婉点

个性_男生表白女生的话

热脸贴冷屁股的句子

我对我的男朋友说别人1句不好他反驳10句

追一个人被拒绝的文案短句

约会被拒绝后的高情商回复

面对拒绝的应对策略

关于有趣又有深意的句子沙雕 沙雕到极致的句子

女生拒绝男生表白的句子

最新文章

2025妇女节是第几个妇女节

三八妇女节感谢女性的奉献与付出

三八妇女节的庆祝方式和习俗

女生节在每年的几号?

三八妇女节引号

已婚男人的情书

标签列表

关于有趣又有深意的句子沙雕沙雕到极致的句子