基于注意力模型的行人属性识别方法
2021.05科学技术创新基于注意力模型的行人属性识别方法
胡剑波1任劼1,2
郑江滨2(1、西安工程大学电子信息学院,陕西西安7100482、西北工业大学计算机学院,
陕西西安710072)1概述
在智能监控系统中,行人的属性识别是一个热点研究课题。
行人属性是指人的一些可观测的外部特征,
可作为重要的生物特征信息被用于行人再识别,安防监控,
智慧城市等领域中。根据属性的类型,可将行人属性分为具体属性和抽象属性两种。具体属性是对人物图像中,人的不同区域的具体细节描述。抽
象属性与一些抽象概念相对应,
如性别、身体朝向和年龄等,这些抽象概念通常不能从单个区域进行分析。
随着深度学习的研究,卷积神经网络(Convolutional Neural Networks ,CNN )[1-3]
在行人识别中展现出了显著的优势。为了进一步提高识别性能,一些学者采用增加网络深度的方法对CNN 的网络结构进行改进[4]。但是,随着网络深度的增加和模型的复杂度增高,所需的训练时间和硬件实现难度会增加。除了增加网络的深度外,加入注意力模块是提高行人属性识别准确度的另一种有效方法[5-8]。注意力模型通过模拟人脑的工作方式,使神经网络只聚焦于作为特定输入的图像的某一块区域。与传统算法相比,此类模型大大提高了信息处理的效率和准确性,降低了高维数据处理的计算复杂度。综上所述,本文提出了一种基于注意力模型的行人属性识别算法(Main-net with Convolution Block Attention Module ,MCBAM )。所提出的算法采用了已在各识别任务中表现良好的Inception-v3[9]网络作为基础,加入了注意力提取模块CBAM [10],提高对细节属性的识别能力。为了验证所提出算法的有效性和可靠性,通过测试并与现有的算法进行对比验证,生活美好
实验结果表明MCBAM 在减小了模型大小的基础上,保持了良好的精确度。2基于CBAM 的行人属性识别方法MCBAM 网络分为两部分,第一部分为主网络(Main Net ),由一个卷积层,一个CBAM ,以及三个IBC (Inception Block with CBAM )组成。MCBAM 网络的具体结构如图1所示。在主网络中,输入图片首先通过卷积层(Conv )进行较为底层的特征提取,再将通过CBAM 对特征进行空间及通道注意力信息提取,最后在三个IBC 模块中进行细节信息特征提取。第二部分由全局平均池化(Global Average Pool ,GAP )与全连接(Fully Connected ,FC )组成,主要是对主网络提取的特征进行约束以及分类输出。图1MCBAM 的网络结构
2.1CBAM CBAM 是一个结合通道特征以及空间特征的注意力图提取
模型,由通道注意力模块(Channel Attention Module ,CAM )和空
间注意力模块(Spatial Attention Module ,SAM )两个部分组成。
CBAM 的输入是由图像经过卷积层计算得到的特征,
即。F 通过CAM 得到通道注意力图M C (F
)。M C (F )与F 进行元素相乘得到通道注意力特征F'。然后,F'传入
SAM 中,得到空间注意力图M S (F')。M S (F')再与F'进行元素相乘,
最终得到。
2.2IBC 在CNN 不断加深网络结构的背景下,庞大的计算量使得网络计算成本不断增加。在现有的特征抽取网络后加入注意力提取模块则可以提高网络识别性能,使深度不太深的简单网络也可以达到深度较深的网络的所能达到的性能。所以,本文将
Inception 网络和CBAM 结合,组成了IBC 模块,对特征进行抽取。
选取Inception-v3作为特征提取的基础网络是由于该网络
不仅可以减少计算量和参数的个数,并且在增加了网络宽度的
同时,增加了网络对尺度的适应性。
2.3GAP 层和FC 层
GAP 层的作用是对整个网路在结构上做正则化防止过拟中秋节放假多少天
合,再引入GAP 层的同时加入FC 层。FC 层的作用则是对特征
进行分类。经过主网络得出的特征,将其全部联系起来,最后经
过GAP 和FC 层。最终的输出可以投影为属性识别的属性逻辑或重新识别的特征向量。
作者简介:胡剑波(1989原),男,汉,甘肃省庆阳市人,硕士研究生,西安工程大学,
研究方向:图像处理,计算机视觉。摘要:随着深度学习的研究,卷积神经网络在行人属性识别中展现出了显著的优势。虽然增加网络的深度可以进一步提高
属性识别的性能,但是更深的网络会导致模型的复杂性更高以及更长的训练时间和更高的计算成本。注意力机制的引入是提高行人属性分析准确度的另一种方法。因此,提出了一种基于注意力模型的行人属性识别方法。该方法是以Inception-v3网络作为基础网络进行基础信息的特征提取,同时采用注意力模块进行通道和空间的注意力信息提取,在保证网络效率的同时,也简化了
网络模型,进一步提高了行人属性分析的有效性。为了验证所提出算法的性能,
采用了PETA 和PA-100K 行人属性数据集,与现有的算法进行了对比,实验结果表明该算法在数据量较大的数据集上具有良好的识别性能。
关键词:行人属性识别;深度学习;卷积神经网络;
注意力模型中图分类号:TP391.4文献标识码:A 文章编号:2096-4390(2021)
05-0063-0363--
科学技术创新2021.05
2.4损失函数
本文选取结合sigmoid 的BCE Loss (Binary Cross Entropy
Loss )作为平衡分类的损失函数。
该函数由Sigmoid-BCE Loss 合成,如公式(1)所示,首先利用sigmoid 函数将输入x 调至0-1之
间,再传入BCE 函数中进行损失计算,
如公式(2)所示。(1)
(2)
式中y ij 表示目标值,也就是正确值,M 、N 分别表示每个小批次中的样本数目和属性数量,p ij 表示第i 个样本的第j 个属性的输出预测值。最终求出的值就是所需的损失值。
3实验分析
实验在ubuntu16.04系统下进行,采用两个公版的NVIDIA GEFORCE 2080(8GB )GPU 进行SLI 。
在实验中,我们将随机梯度下降的方法作为优化器,
初始学习率设置为0.002,动量设置为0.9。为了验证所提出算法的有效性,本文采用了平均准确率(mA )、准确度(Accu )、精准度
(Prec )、召回率(recall )and F1得分(F1-score )这五个评估标准
母亲节短语句子对所提出的算法和现有的算法在使用PETA 和PA-100K 两个数据集下进行了对比。
3.1PETA 数据集中结果分析
拉杆箱什么材质好PETA 数据集由8个室外场景和2个室内场景组成,包含8705个行人,每个行人标注了61个二值的和4个多类别的属
性。图2为采用PETA 数据集时的两组属性分析结果,
例如图2(a )中的识别结果为年龄在31-45岁之间,穿着鞋子的短发男
子。其中男子的属性作为默认属性,
西安的旅游景点
并不显示。表1采用PETA 数据集的性能分析
(a)第1组
(b)第2组
图2采用PETA 数据集的两组属性分析结果表1为本文所提出算法与ELF-mm ,FC7-mm ,FC6-mm 算法在PETA 数据集下的对比结果。考虑到不同批尺寸下特征提取的侧重点不同,本文还对所提出算法在不同批尺寸下的结果进
行了对比。表1中B 表示批尺寸,从对比结果可以发现,
当B=8时为相对最适参数,训练实验时间约为47张/s ,模型大小约为
18MB 。
3.2PA-100K 数据集下实验对比
PA-100K 包含100000张行人图片,分别拍摄于598个场景,其属性被设置为26种,有性别、年龄以及物体属性。针对PA-100K 数据集,对本文所提出的算法与DeepMar ,MNet 以及HY-net 的结果进行了对比分析。
图3为采用PA-100K 的数据集时的两组行人属性分析结
果。例如图3(a )中的识别结果为年龄在18-60岁之间男性,
侧位站立,戴眼镜,身穿长袖衣服和裤子。
奶粉排名(a)第1组
()
1/(1)
i j x i j p e
11
1oss (ln()(1)ln(1))M N
i j ij i j ij i j L y p y p MN          Method m A Accu Prec Recall F1 MCBAM (B=8) 82.26 73.37 84.67 82.41 83.52 M CBAM (B=16) 82.18 73.69 84.44 82.13 83.27 M CBAM (B=32)
81.24 72.96 83.46 81.87 82.66 ELF-mm 75.21 43.68 49.45 74.24 59.36 FC7-mm 76.65 45.41 51.33 75.14 61.00 FC6-mm
77.96
48.13
54.06
76.49
63.35
64--
2021.05
科学技术创新(b)第2组
图3采用PA-100K 数据集的两组属性分析结果
表2显示了PA-100K 数据集下,Deep-MA 、MNet 、HY-net 以及B 分别为8、16、32时的MCBAM 实验方法的对比结果。可以看出,MCBAM 在得分中,超过了Deep-MAR ,MNet 及HY-net 。
表2PA-100K 下实验方法对比
相比于PETA 数据集,MCBAM 在数据量更大的PA-100K 数据集上更能展示网络优势。从B 的对比中可以发现,网络MCBAM 在B=8的时候,mA 超过了B=16和B=32的网络。这表明,当B 取值较小时,网络模型更加注重细小的特征。
结束语
本文提出了一个基于注意力机制的网络结构。该网络结合了Inception 模块和CBAM 。利用Inception 的优势,减少了网络
参数,
利用CBAM 提取通道和空间注意力图,提高了行人属性分析的准确率。网络被用于PETA 和PA-100K 数据集上做实验,在不同的batch size 下训练,与现有算法进行了对比分析。
实验结果表明,该网络具有良好的准确性和实用性,
具有较高的应用价值。尽管该算法取得了良好的效果,
并且模型大小可观,但仍然存在一些缺点,需要进一步改进。由于细小的属性对识别难度有着一定的影响,未来的工作是通过结合不同层次的特征,以及寻一个适合小型网络的损失函数来提升网络的准确度。
参考文献
[1]李伟山,卫晨,王琳.改进的Faster RCNN 煤矿井下行人检测算法[J].计算机工程与应用,2019,055(004):200-207.
[2]何博,全惠敏.局部二次加权与多特征融合的行人检测算法[J].计算机工程与应用,2016,52(9):154-158.
[3]李锦明,曲毅,裴禹豪等.预训练卷积神经网络模型微调的行人
重识别[J].计算机工程与应用,2018(20):35.
[4]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [J].arXiv preprint arXiv:1409.1556,2014.
[5]Liu X,Zhao H,Tian M,et al.Hydraplus-net:Attentive deep features for pedestrian analysis [C]//Proceedings of the IEEE international conference on computer vision.2017:350-359.[6]Sarfraz M S,Schumann A,Wang Y,et al.Deep view -sensitive pedestrian attribute inference in an end-to-end model [J].arXiv preprint arXiv:1707.06089,2017.
[7]Sarafianos N,Xu X,Kakadiaris I A.Deep imbalanced attribute classification using visual attention aggregation [C]//Proceedings of the European Conference on Computer Vision (ECCV).2018:680-697.
[8]Guo H,Fan X,Wang S.Human attribute recognition by refining attention heat map[J].Pattern Recognition Letters,2017,94:38-45.[9]Ioffe S,Szegedy C.Batch normalization:Accelerating deep network training by reducing internal covariate shift [J].arXiv preprint arXiv:1502.03167,2015.[10]Woo S,Park J,Lee J Y,et al.Cbam:Convolutional block
attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV).2018:3-19.Method
mA Accu Prec Recall  F1 MCBAM (B=8) 74.63 72.20 84.81 82.60 83.69 MCBAM  (B=16) 74.47 72.48 84.83 82.56 83.68 MCBAM  (B=32) 73.75 72.16 85.47 78.90 82.05 Deep-MAR
72.70 70.39 82.24 80.42 81.32 MNet 72.30 70.44 81.70 81.05 81.38 HY-net
74.21
72.19
82.97
82.09
82.53
65--

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。