2021年3月计算机工程与设计Mar.2021第42卷第3期COMPUTER ENGINEERING AND DESIGN Vol.42No.3
基于注意力机制的人脸表情识别迁移学习方法
亢洁,李思禹+
(陕西科技大学电气与控制工程学院,陕西西安710021)
摘要:针对现有的在人脸表情识别中应用的卷积神经网络结构不够轻量,难以精确提取人脸表情特征,且需要大量表情标记数据等问题,提出一种基于注意力机制的人脸表情识别迁移学习方法。设计一个轻量的网络结构,在其基础上进行特征分组并建立空间增强注意力机制,突出表情特征重点区域,利用迁移学习在目标函数中构造一个基于log-Euclidean距离的损失项来减小迁移学习中源域与目标域之间的相关性差异。在数据集JAFFE和CK十上的实验结果表明,该方法相比其它人脸表情识别方法具有更优的识别能力&
关键词:人脸表情识别;卷积神经网络;注意力机制;特征分组;迁移学习
中图法分类号:TP391文献标识号:A文章编号:1000-7024(2021)03-0797-08
doi:10.16208/j.issnl000-7024.2021.03.029
Transfer learning method for facial expression recognition
based on attention mechanism
KANG Jie,LI Si-yu;
(School of Electrical and Control Engineering,Shaanxi University of Science and Technology,Xi'an710021,China) Abstract:To solve the problems that the existing convolutional neural network structure used in facial expression recognition is not lightweight enough to extract facial expression features accurately,and that a large amount of expression labeled data is required&a transfer learning method for facial expression recognition based on attention mechanism was proposed.A lightweight networkstructurewasdesigned andfeaturegroupsweregroupedonthebasisofit afterwardsaspatialenhanceda t ention mechanism was established to highlight the key areas of facial expression features.At the same time&transfer learning was used to construct a loss term based on log-Euclidean distance in the objective function to reduce the correlation difference between the source domain and the target domain.Experimental results on the data sets JAFFE and CK+show that the proposed method has better recognition ability than other facial expression recognition methods.
Key words:facial expression recognition;convolutional neural network;attention mechanism;feature grouping;transfer learning
1引言
人脸表情⑴2识别最核心的部分是特征提取。经典的方法都是以人工特征为基准进行提取的,如LBP3、HOG⑷等。但是特征选取的好坏直接决定了表情识别准确率的高低,这对于表情识别是极其不稳定的。卷积神经网络(convolution neural network,CNN)不需要手动提取特征&然而提高卷积神经网络的人脸表情识别性能最直观的方法是堆叠更多的层&因此网络基础结构也在研究中随着性能的提升而不断增大。卷积神经网络的另一个缺点是依赖于大量的数据驱动&尤其是在人脸表情识别中,很难获取大量识别场景下的标注表情数据集。此时将现有的小型已标记的数据集应用于具有大型基础结构的网络中,容易产生过拟合,网络识别性能下降。
针对以上问题,本文提出了一种基于注意力机制的人脸表情识别迁移学习方法。该方法具有以下两个特点:设
收稿日期:2020-06-29;修订日期:2020-09-07
基金项目:国家留学基金项目(201708615011);陕西省社会发展科技攻关基金项目(2O16SF⑷10);西安市科技计划基金项目(2019216514GXRC001CG002-GXYD1.7)
作者简介:亢洁(1973-),女&陕西潼关人&博士&副教授&研究方向为模式识别、机器学习;+通讯作者:李思禹(1997-),女&陕西西安人&硕士研究生&研究方向为模式识别、机器学习。E-mail:*******************
•798•计算机工程与设计2021年
计了一个基于特征分组和空间增强注意力机制(spatial group-wise enhance module,SGE)「刃的轻量型卷积神经网络来有效提取人脸表情特征;利用迁移学习在目标函数中构造了一个基于log-Enclidean距离的损失项来减小源域与目间。
1本文方法
1.1基于注意力机制的人脸表情识别迁移学习方法
迁移学习的主要思想源注数识结构进行迁移&成或提高目标领学习效果。领适迁移学习重一,其目领域内存在差异的情况下传递知识。它可用在当目标域的数据未&而源域数情况,目化源目标域之间性&并成功源训练的到目。
本文提出了一种基于注意力机制的人脸表情识别迁移学习方法。该方法由两卷网络组成,其中一个卷网络的输源域人脸表情数据&另一个网络的输入是未标记的目标域人脸表情数据。源域卷积神经网络
和目标域卷积神经网络之间共享相同的权重参数。由于卷 网络的全到样本标记空间&因此利用全连接层作为域适应适配实现域适应。通过域适配层得到表征源目数I分布特征后,构造了一个基于log-Enclidean距离⑹的损失函数,以此来计算提取到的源目间&并为两间性。卷经网络参数更新的过程中,结合了分类损失和log-Eu-clidean损失一起进行联合训练,最大程度减小了源目标域之间性,在训练两种损失达到平衡状态,最终可以使目标域得到有效的表情分类。本文方法训练中,有源域数据用来计算多损失,而对于新构造的基于log-Enclidean距离的损失项,所提网络中所有输入均参与。该方法中还设计了新的网络结构,引入了残差恒等块和注意力模块SGE,丰富了特征连,增强了人脸表情学习。本文网络整
1所示。
图1基于注意力机制的人脸表情识别迁移学习方法结构
本文提出的基础网络主要由9个卷积层、6个最大池化层和两个全成。该网络中9个卷卷大小均为5.5,步长均为1,通道数依次为64、64、64、128、128、128、64、64、64,并且每个卷积层后都分别加有批量归一化(batch normalization&BN)「7*,激活函数ELU(exponential linear unit)8*和注意力机制SGE模块。
网络卷中3残&网络中残
2所示,其中两个卷两个SGE&它可以将输入直接与后面SGE果之和输出给下面的网络层。池化层在第1、3、4、6、7、9个SGE模块之后,所有池化窗口大小为3,步长为2。全连有网络,分别是一个64维适应适配层和一个用来输出7类表情预测的Softmax分类器。整体网络结构如图3所示
。
第42卷第3期
亢洁,李思禹:基于注意力机制的人脸表情识别迁移学习方法
・799・
图3卷积神经网络结构
1.2基于注意力机制的人脸表情特征提取
人脸表情识别的重点 取。本文网络引入注
科创板开户条件意力机制SGE
帮助网络 精确地提取人脸表情特征。SGE 模块采用了特征分组的思想,沿通道将卷积特征
为多个子 。由 人脸表情
节监督,
表情图像中可能会存在噪声,表情 空间 现
情况,从而会削弱局部表情
百勺
表达能力。为 一 空间上具有
性和良好分布性,SGE 一个特征组内建立了一个空间增强机制,用注意
有位置 放特征向量,注意 生成源为全局统计
局部 间 性。这种设计能有效抑制噪声,并能突 重点 。其目 高各
子 学习,并
西餐做法强组内空间
分布。SGE 模块的结构如图4所示。注意力机制SGE
首
一个C 通道,HXW 的
卷积特征沿通道数划分为G 组。SGE 并行处理所有的子特
征组, 子 内进行单独的注意操作。其中
一
空间内 位置 一 向
在这里将此原始特征向量表示为E ,E i # -C G ,1%i % m, 则原始特征组为X = E l ・・・E m }, m = H X W 。然后利用经过
全局平均池化 近似表示该组的学习 ,将全局
平均池化
为g ,则有
m
g =⑴—E i
⑴
i =1
接下来,利用组内的全局特征和原始特征的点积结果, 来获得
注意系数,将此注意系数记为c,有
C i = g • E i
(2)
该点积在一 全局语义特征g 和原始局
部 E i 之间 性。下一步为了防止 本 之
间系数偏差太大对注意操作结果造成影响,因此对注意系 数C 进行归一化,将归一化的结果记为C ,则有
C i =(3)
比十£
m
'=⑴
—c ⑷
m
)c =⑴—(q —')2
(5)
丄j =1
其中,'是C 的均值,)是C 的标准差,£是一个常数。此外,
还要为每一个系数C 引入一对参数y 和仔,以此来缩放并移
动标准化值,将移动并缩放后的C 记为乂,则有
# = ycA +仔
(6)
参数y 和仔是SGE 有的两个参数,在单
中,其参数
数G 的2倍,与整个网络的百
万级参数量相比,可忽略不计。这也是本文网络在加入注
意力模块后仍然轻量的原因。接着,对#进行Sigmoid 激 活,再使原始特征与激活后的#进行点积,将点积后的特 征向量,即增强
向量记为E ,则有巫医出装
®o
®
@
游戏全屏全局平均池化H 输入的高 点乘 W 输入的宽归一化 c 输入的通道sigmoid 激活
图4 SGE
模块结构
・800・计算机工程与设计2021年
Z i=x A•)(.#{%(7)最后,增强的特征组为:H=0A…E m},E#—C/G& m=H X W。
13基于迁移学习的人脸表情识别
人脸表情识别最终要解决的问题的本质是利用卷积神经网络提取一组图像的特征向量并将其类别划分为K类。网络在预测过程中用分类器来为给定的这组图像提供一个属于K类中每个类的概率。在本文所提的实际问题中&即将一组人脸表情数据分为7类(6类基本表情和正常表情)%在迁移学习中&定义了源域表情数据为X s,源域表情标签为y&无标签的目标域表情数据为X t。将源域X s和标签y 输入源域卷积通道&将目标域X t输入目标域卷积通道&在提取源域和目标域的人脸表情特征之后&利用log-Euclidean 距离来计算两个域之间的表情特征相关性差异&然后使其和多分类损失一起作为优化目标来实现源域和目标域之间的相关对齐。
首先&用C s和C+来分别表示源域和目标域的特征协方差矩阵&则有
C s=^^(X s t X s—丄(t X s)t(t X s))(8)
C t=—1-(X t t X t丄(t X t)t(t X t))(9)
n T一1'n T/
其中,5S和5T分别表示源域和目标域数据的个数,1表示一个列向量,所有元素都为1。一般情况下,两个域之间的相关性差异利用协方差定义,假设此处将相关性差异用基于Euclidean距离的方法表示,则有
K C s,C t)=4'I C s—C t IIF(10)式中:'表示激活特征的维数,・F表示矩阵的平方Frobe-nius范数。然而从数学上讲,协方差表示是属于曲率非零的黎曼流形的对称正定(symmetric positive definite, SPD)9*矩阵,使用基于Euclidean距离这种单纯的向量运算不适合来表示流形上的距离。因此,本文引入o—Euclidean此问题,log流形
点映射到切空间上,再在切空间上通过定义的点积来计算源域与目标域距离,则有
Kg(C s,C t)=丄||U diag(log(c##),•••,log()i))U T—
V diag(log(“i)‘•••,log(“'))V T||(11)式中:U和V分别表示C s和C t的对角化矩阵,6和“= 1,为相应的特征值。此时考虑到,若只最小化分类损失,可能会导致对源域过度拟合,从而降低目标域上的性能,另外,若单靠最小化log-Euclidean距离可能会导致表情特征一定程度上的退化。最终,使用多分类损
失函数与此距离一起来定义为迁移学习的总损失,则有
l=Kas+Kg(C s,C t)(12)
中:9表示迁学习总损失&作为优化目
来更新网络参数,19s表示源域的多分类损失,Kg(C s,C+)表示源域和目标域之间的分布距离,A表示权衡分布距离在网络中作用值。多损失函数为
7
K s=——y A log y(1$)
qq标签i=1
式中:y p表示网络预测的表情类别,y表示真实的表情类别,表示已定义的表情类别数目。在训练结束时,多分类损失和基于log-Euclidean距离的损失项会达到一定平衡,最终能够在源域数据上保持良好分类精度的同时,也在目标域数据上获得更好的人脸表情分类性能。
2实验结果与分析
2.1实验数据集及预处理
本文实验用到了3个人脸表情数据库,分别为RAF-DB)0]JAFFE〔##*、CK;)2。
RAF-DB)0*数据库的人脸图像均来自互联网,共有29672张。该数据库提供了7类基本表情的子集和11类复合表情的子集。本文实验借助其7类基本表情(生气、厌恶、害怕、高兴、悲伤、惊讶、正常)的子集进行训练,共包含#5339张图片。本文在实验之前,对该数据集进行了相关预处理。主要原因在于该数据集的各类表情数量相差很大,差距最大的两类表情为害怕(355张)和高兴(5957)。因此,本文数均衡化,主
表现在对数量多的表情进行过采样处理(包括对图像的水平翻转和随机旋转操作),对数量少的表情进行欠采样处。数14640,各表情数
平衡。
JAFFE)1]数据库是一个来自实验室的图像数据库,包含来自#0个日本女性的213个表情图像,其中每个人均有7类基本表情,每种图像表情有3张或4张。由于该数据集中表情,因此本文实验
了裁剪,只保留了人脸表情区域,实验中使用的数据全部为裁剪后的人脸表情图像。
同样是实验室数据库,包含#23名受试者的593个视频序列,其中有标记的只有309段表情序列,标记 规则为6种基本面部表情。本文实验从此309段表情序列中提取最后#帧到3帧和每个序列的第一帧,以此作为正常表情,然后将其与上述提到的已标记的6种表情组合起来,作为本文实验的7类表情数据集,共包含#236张图片。
2.2实现细节及实验环境
本文实验主要分为两组,一组是从RAF-DB数据集到JAFFE数据集的人脸表情迁移实验,另一组是从RAF-DB 数据集到CK;数据集的人脸表情迁移实验。即源域数据为有RAF-DB人脸表情数,目数为
的JAFFE人脸表情数据集和无标签的CK+人脸表情
第42卷第$期亢洁!李思禹:基于注意力机制的人脸表情识别迁移学习方法・801・
数(
本文所有实验均将$个数据集中的人脸表情图片缩放
到56X56大再输网络中,训练数据批量大
小为128,并采用学习率为0.009,动量为0.9,权值衰减
系数为0.0001下降法训练,输岀为不同类
别表情的概率。
本文实验是基于Tensorflow的深度学习框架构建的,
编程语言及版本为Python$.6.5,使用的CPU为内存16G
Intel(R)Core(TM)i78700,GPU为11GB的NVIDIA
GeForce GTX1080Ti。
本文实验的评价准则之一为人脸表情识别正确率,其为
式中:M表示为第。类识别正确的表情数量,n+表示为目标
数表情数量。
2.3实验对比与分析
2.3.1通数比实验
本文实验将基注意力机制模块SGE嵌入到卷网络中,并研究其通数G对网络性能的影响。SGE中的通数G取值不同
子数目。因此,一一适数G,可平衡表示每个语义,从而优化网络性能。本文在未使用迁移学习的条件下,对G=2,4,8,16,$2,64这6种情况进行对比实验,实验结果如图5和图6所示。
5JAFFE表正确
结果显示,在G=2时,网络在两个数据集上的人脸表情识别正确率最差&数据集JAFFE上的正确率为45.23%,数据集CK+上的正确率为58.81%。当G的逐渐增大时&网络的表情识别正确率逐渐升高。在G=$2时&网络在两个数据集上均达到率的最高值,数据集JAFFE上的人脸表情识别正确率为49.09%,数据集CK+上的人脸表情识别正确率为60.34%。当G增大到64时&网络在两个数据集上的识别正确率开始下降,分别为48.50%和60.09%。可以看岀&随着G&网络的性能呈现
图6CK+表正确率
升后降的趋势。因为通道数是固定的,分组过多会减少组内子维数,导致响表示较弱,
反之&限制表达的多样性。&当G=$2时在本文网络框架中能得到最好的特征平衡,因此,本文将选择G=$2有的实验。
2.3.2惩罚系数对比实验
惩罚系数入是一值,在源域上用分类精度来权衡
域适效果。因此,一定有一适的入值衡迁移的程度。本文实验选取入=0.2,0.4,0.8, 1.0, 1.2, 1.4比人脸表情识别的分类效果,实验结果如图7和图8所示。
7JAFFE表正确
%
、M s
3
r
601---------1---------1---------1---------1---------1----------
二年级上册数学期中考试试卷分析0.20.40.60.8 1.0 1.2 1.4
A
图8CK+
表情识别正确率
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论