收稿日期:2020 04 16;修回日期:2020 06 11 基金项目:国家自然科学基金面上资助项目(61672267)
作者简介:薛艳飞(1993 ),男,河南周口人,硕士研究生,主要研究方向为语音识别;毛启容(1975 ),女,四川泸州人,教授,博导,博士,主要研究方向为情感计算、模式识别和多媒体分析(Mao_qr@mail.ujs.edu.cn);张建明(1964 ),男,江苏丹阳人,教授,硕导,博士,主要研究方向为图像处理与模式识别.
基于多任务学习的多语言语音情感识别方法
薛艳飞,毛启容,张建明
(江苏大学计算机科学与通信工程学院,江苏镇江212013)
摘 要:由于人类情感的表达受文化和社会的影响,不同语言语音情感的特征差异较大,导致单一语言语音情
感识别模型泛化能力不足。针对该问题,提出了一种基于多任务注意力的多语言语音情感识别方法。通过引入语言种类识别辅助任务,模型在学习不同语言共享情感特征的同时也能学习各语言独有的情感特性,从而提升多语言情感识别模型的多语言情感泛化能力。在两种语言的维度情感语料库上的实
验表明,所提方法相比于基
准方法在V
alence和Arousal任务上的相对UAR均值分别提升了3.66%~5.58%和1.27%~6.51%;在四种语言的离散情感语料库上的实验表明,所提方法的相对UAR均值相比于基准方法提升了13.43%~15.75%。因此,提出的方法可以有效地抽取语言相关的情感特征并提升多语言情感识别的性能。关键词:多任务学习;多语言情感识别;卷积神经网络;循环神经网络;注意力机制中图分类号:TP183 文献标志码:A 文章编号:1001 3695(2021)04 019 1069 05doi:10.19734/j.issn.1001 3695.2020.04.0103
Multi languagespeechemotionrecognitionbasedonmulti tasklearning
XueYanfei,MaoQirong,ZhangJianming
(SchoolofComputerScience&CommunicationEngineering,JiangsuUniversity,ZhenjiangJiangsu212013,China)
Abstract:Duetotheinfluenceofcultureandsocietyontheexpressionofhumanemotion,thefeaturesofspeechemotionindifferentlanguagesvarygreatly,whichleadstotheinsufficientgeneralizationabilityofspeechemotionrecognitionmodelina
singlelanguage.Tosolvethisproblem
,thispaperproposedamulti lingualspeechemotionrecognitionmethodbasedonmulti taskattention.Byintroducingtheauxiliarytaskoflanguageidentification,themodelcouldnotonlylearntheemotionalfea turessharedbydifferentlanguages,butalsolearntheuniqueemotionalcharacteristicsofeachlanguage,soastoimprovethegeneralizationabilityofthemulti languageemotionrecognitionmodel.Experimentsonthedimensionalaffectivecorporaoftwolanguagesshowthattheproposedmethodimprov
esthemeanvaluesofrelativeUARoftheValenceandArousaltasksby
3.66%~5.58%and1.27%~6.51%,r
espectively,comparedwiththebenchmarkmethods.Experimentsondiscreteaffec tivecorporaoffourlanguagesshowthatthemeanvaluesofabsoluteUARimprovesby13.82%~15.75%comparedwiththe
benchmarkmethods.Therefore
,theproposedmethodcaneffectivelyextractthelanguage relatedemotionfeaturesandim provestheperformanceofmulti lingualemotionrecognition.Keywords:multi tasklearning;multi languageemotionrecognition;convolutionalneuralnetwork;recurrentneuralnet work;attentionmechanism
0 引言
自动识别人类的情感状态对智能人机交互有着重要的影响。对于智能语音交互系统、识别副语言信息,尤其是情感信息,可以增强对用户意图的理解,帮助改善用户体验。由于情感受文化和社会的影响,情感语音语料库的开发和构建也不尽相同。因此,多语言语音情感识别是一项具有挑战性的任务。
在传统的多语言语音情感识别方法中,大多数的研究主要
集中在特征的选择和抽取上。Origlia等人[1]
提出了一种包含局部和全局韵律学特征的情感特征集,该特征集在两种高度异
质语料库上的情感分类任务中表现良好。周晓凤等人[
2]
提出了一种将语音情感特征进行分类,并将各类情感特征的支持度矩阵利用改进的D S证据理论进行决策级融合的语音情感识别方法,在一定程度上提高了语音情感识别方法的识别率和稳定
性。L
i等人[3]
计算机语言种类通过对语音信号进行小波变换分析,对语言多样性的情感感知过程进行建模,引入了一组声学特征,显著增强了情感的感知过程。相比于传统的韵律学特征、频谱特征及其联
合特征,该特征在多语言情感识别中取得了更好的性能。
近年来,深度学习在计算机视觉和语音识别领域取得了重大突破,基于深度学习的方法也已经在多语言语音情感识别领
域取得了显著进步。陈闯等人[4]
提出了一种改进的自适应遗
传算法优化BP神经网络的语音情感识别模型,通过对自适应遗传算法的改进,提升了遗传算法的寻优性能,并以此对BP神经网络初始的权阈值进行优化,能够有效提高语音情感识别
率并加快网络收敛速度。S
agha等人[5]
提出了一种通过语言识别来增强多语言语音情感识别性能的方法,针对来自不同语言族的多个语音情
感语料库分别训练一个识别模型,对于一个未知情感的语音片段,先识别该语音所属的语言族,再选择相
应的模型进行情感识别。Bertero等人[6]
提出了一种基于卷积
神经网络的端到端情感识别模型,在不考虑输入语言类别的情况下,能够从原始波形中自动提取特征并检测情感。N
eumann等人[7]提出了一种跨语言和多语言的语音情感识别模型,通
过训练一个基于注意力的卷积神经网络(
attentiveconvolutionalneuralnetwork,ACNN)来对语音的Arousal和Valence进行
第38卷第4期2021年4月 计算机应用研究
ApplicationResearchofComputersVol.38No.4
Apr.2021
识别。
多任务学习(multi tasklearning,MTL)是机器学习中的一
种学习范式,其目的是利用包含在多个任务中的有用信息来帮
助提高所有或者部分任务的泛化性能[8]。多任务学习方法能
够在相关任务间共享表征信息,有效地协调并促进多个任务的
学习。Lee[9]通过对两种高度异质化语言情感的研究,提出了
一种基于深度神经网络(deepneuralnetwork,DNN)的多语言
多任务语音情感识别方法。Xia等人[10]提出了一种基于深度
信念网络(deepbeliefnetwork,DBN)框架的多任务学习方法,
利用Valence和Arousal信息进行情感识别,以情感类别识别
任务为主要任务,将Valence和Arousal回归/分类作为多任务
学习中的次要任务。Zhang等人[11]提出了一个新颖的端到端
模型。该模型通过学习Valence、Arousal和Dominance三个任
务来提升情感识别性能,与传统的系统相比,它能够提取不同
任务之间共享的表征,以缓解过拟合问题。
然而,由于不同语言的语音情感特征差异较大,跨语言语
音情感识别性能较差,如何使多种语言的情感特征相互适应以
促进多语言语音情感识别是当前亟待解决的问题。针对该问
题,本文提出了一种基于硬共享多任务学习的多语言语音情感
识别方法。本文提出了一种基于多任务学习的卷积双向长短
时记忆注意力网络,主任务为情感识别,辅助任务为语种识别。
通过引入语言种类识别辅助任务,模型不仅能够学习多语言共
享的情感特征,同时也能学习不同语言特有的情感特性,以此
来增强模型对不同语言语音情感的泛化能力,进而提升情感识
别性能。通过引入任务相关的注意力机制,能够对不同语言共
享的情感特征进行情感相关的加权表征,使模型能够专注于情
感相关特征的学习,从而提升模型对不同语言语音情感特征的
提取能力。
1 多语言情感特征学习
本文提出了一种基于多任务学习的卷积双向长短时记忆
注意力网络(convolutionalbidirectionallongshort termmemory
attentionnetwork,CBiLSTMAN)用于多语言语音情感识别。该
网络主要由输入层I、语言相关情感特征编码器G、多语言情感
分类器F和语种判别器D四部分构成,模型结构如图1所示。
其中,输入层I以相邻元素之间具有高相关性的声学特征
FBank作为输入数据,用于多语言情感显著特征的学习。语言
相关情感特征编码器G采用CNN RNN神经网络对语言相关
的情感特征进行抽取。情感分类器F和语种判别器D均由注
意力层(attentionlayer)、全连接层(fullyconnection,FC)和输出
层构成,情感分类器F用于多语言语音情感识别,语种判别器
D用于语言种类识别。
在序列相关的任务中,为了得到更好的预测模型,常常需
要同时考虑前后上下文关系。相应地使用两个L
STM,一个使用标准序列,另一个使用反向的序列进行学习,得到两个隐藏状态,将这些状态信息连接起来,形成最终的输出。为了得到
语音序列中过去和未来的上下文信息,
CBiLSTMAN模型中采用双向长短时记忆网络抽取不同语言语音情感特征的高层语
义表示。在C
BiLSTMAN模型中,使用两层BiLSTM对输入的中间序列特征M进行时序关系建模。BiLSTM的隐向量表征
分别来自正向和反向LSTM(分别使用h→ n和h← n表示)
,每层LSTM的隐藏层节点数为128,同时使用非线性变换可以得到
最终的隐向量hn
=σ
([h→ n
,h← n
])
。将得到的所有时间步的输出特征hn作为最终的不同任务间共享的特征。1 3 多语言情感分类器
通常在将BiLSTM模型生成的所有隐藏状态作为特征进行
分类时,这些特征对于不同的分类任务并不都是同等重要的。因此,引入任务相关的注意力机制可以使分类器对不同的任务专注于序列中不同的状态,从而学习得到一个更适合当前任务
的特征表示,进而提升相关任务的识别性能。在C
BiLSTMAN模型中,使用多语言情感注意力机制对多语言语音情感识别任务
和语言分类任务共享的特征序列hn
=σ
([h→ n
,h← n
])
进行情感相关的加权表征。
对于语言相关情感特征编码器提取的共享特征序列hn=(h1,h2,…,hn,…,hN)
,N为序列的长度。注意力层首先计算序列中每个时间步n的特征hn对应的权重α
e
n为αe
n=exp(f(hn
))∑N
t=1
exp(f(ht
))(9)
其中:f(h)=WTh,W为可训练的参数。注意力层的输出ce
是输入序列的加权之和,是对一个语音片段整体的表征,其加权方式为
ce=∑N
n=1
αnhn
(10)
最后,将得到的语音情感相关的高层语义特征ce
输入到
下一层进行情感分类。多语言情感识别任务的分类器由一层
情感相关的注意力机制层、一层有1
28个神经节点的全连接层和输出层构成。全连接层的非线性激活函数为R
eLU。为了防止模型过拟合,在输出层之前添加了一层失活率为0.5的随机失活层,输出层通过softmax激活函数激活后即可得到当前语音对应的情感类别。1 4 语种判别器
同样,在语言种类识别任务中也使用了语种相关的注意力机制对语言相关情感特征编码器输出的特征序列h=(h1,h2,…,hn,…,hN)
进行语种相关的加权表征。语种判别器首先计算序列中每个时间步n对应的特征hn的权重αl
n
,计算方式为αln=exp(f(hn))∑N
t=1
exp(f(ht
))(11)
其中:f(h)=WTh,W为可训练的参数。语种相关注意力层的
输出cl
是输入序列的加权之和,是对一个语音片段整体的表征,其加权方式为
cl
=∑N
n=1αnhn
(12)
最后,将cl
作为后接网络的输入特征依次送入含有128个神经节点的全连接层和语言类别输出层进行语言种类识别。
其中,输出层之前添加了一层失活率为0
.5的随机失活层,在将输出层特征进行softmax激活之后即可得到当前语音对应的
语言种类。
令 (e)n(ye|x;θg,θef)和 (l)n(yl|x;θg,θld)分别表示情感分类任务和语言分类任务的交叉熵损失函数,基于多任务学习的多语言语音情感识别方法整体的损失函数为
n(y|x;θg,θf)=α (e)n(ye|x;θg,θef)+β (l)n(yl|x;θg
,θl
d)(13)其中:α、β
分别为情感分类器损失和语种判别器损失的权重系数。情感识别任务和语种判别任务的交叉熵损失函数计算方式分别如式(14)和(15)所示。
(e)n(ye|x;θg,θe
f)=-1n∑ni=1logP(yei|xi;θg
,θe
f)(14) (l)n(yl|x;θg,θld
)=-1n∑ni=1
logP(yli|xi;θg,θl
d
)(15)
其中:θg、θef和θl
d分别为语言相关情感特征编码器参数、多语言情感分类器参数和语种判别器参数。
2 实验
为了验证CBiLSTMAN模型的有效性,分别在两种不同语言的维度情感语料库和四种不同语言的离散情感语料库上进行了多组对照实验。2 1 实验语料库
1)维度情感语料库
为了验证所提出的基于多任务的多语言语音情感识别模
型的有效性,按照文献[7]中的实验设置,混合了IEMOCAP[14]和RECOLA[15]两种不同语言语音的维度情感语料库,设计相
关实验对所提模型的性能进行了实验验证。
a)IEMOCAP。交互式情感双向运动捕捉语料库是一个包含五个会话的英语双向会话多模态语料库,时长约12h,包含语音、视频、面部运动捕捉和对应语音文本转录。其中语音部分包含了频率为48kHz的10039个语音片段。每个会话由一名男性和一名女性专业演员执行即兴表演或脚本场景,以引出相应情感。该语料库采用两种标注方式,使用九种情感类别对语音片段进行离散标注,同时从Valence、Arousal和Dominance三种情感属性维度对情感进行连续标注。
b)RECOLA。该语料库是一个多模态语料库,是在表演者协同解决一个任务过程中收集的法语自发情感互动语料库。共有46个参与者,包含9.5h的法语音频。这些音频由6名标注者对V
alence和Arousal两个维度进行连续标注。该语料库公开可用的版本有23个不同的参与者,每个人持续时长为5min。实验中根据该语料库的标注数据对长语音片段进行了切分,共获取13
08个频率为25kHz的语音片段。由于两个语料库的标注方案不同,按照文献[7]中的方法将V
alence和Arousal两个连续维度的情感值分别映射为两个离散值,原始标注到二值离散标注的映射关系如表2所示。
表2 二值Arousal/Valence映射表
Tab.2 MappingstobinaryArousal/Valenceclasses
语料库ArousalValence
低高消极积极IEMOCAP[1,2.5](2.5,5][1,2.5](2.5,5]RECOLA
[-1,0]
(0,1]
[-1,0]
(0,1]
2)离散情感语料库
由于公开可用的多语言语音情感语料库较少,本文收集了德语、意大利语、英语和普通话四种不同语言公开可用的离散情感语料库,在该混合语料库上进行了多语言语音情感识别相关对比实验,各语料库详细信息如表3所示。
为了获取一致的情感标签,本文按照文献[
5]中的方案将不同的类别映射为积极和消极两类情感,如表4所示。
·1701·第4期薛艳飞,等:基于多任务学习的多语言语音情感识别方法
表3 离散情感语料库
Tab.3 Corporasofdiscreteemotion
信息
语料库
Emo DB[16]EMOVO[17]SAVEE[18]VESD[19]
语言GermanItalianEnglishMandarin
样本数535588480874
采样率16kHz48kHz44.1kHz44.1kHz
女生5302
男生5342
类别数7677
表4 二值离散情感映射表
Tab.4 Mappingstobinarydiscreteclasses
语料库积极消极
Emo DBjoy,neutralanger,boredom,disgust,fear,s
adnessEMOVOjoy,surprisedisgust,fear,anger,sadness
SAVEEhappiness,surprise,neutralanger,disgust,fear,sadnessVESDpleasantsurprise,happiness,neutralityanger,disgust,fear,sadness
2 2 特征提取和实验设置
1)维度情感语料库实验设置
基准模型采用文献[7]提出的注意力卷积神经网络模型(ACNN)和文献[9]中提出的DNN模型,该基准模型是主流的多语言语音情感识别模型。采用文献[7]中的配置,对实验中使用到的语料库中的语音片段进行FBank特征提取,所有语音片段固定时间长度为7.5s。如果一个语音样本长度不足7.5s,则使用两边用零填充的方式补齐到7.5s;如果一个语音样本长度超过7.5s,则将其切分为7.5s。帧长为25ms,帧移为10ms,Mel滤波器的个数为26。因此,可以从每个语音样本片段中提取得到26×751维的FBank谱图特征矩阵,在将扩充一维之后得到的26×751×1维的声学特征作为CBiLSTMAN模型的输入。此外,文献[9]中的模型采用分别含有512、256、128个隐藏层节点的五层DNN方案。参照文献[
9]中的配置,使用OpenSMILE[20]工具对所有语料库抽取了IS 2010情感特征集,将得到的1582维的情感特征集作为基准模型[9]的输入特征。
同时,根据样本个数、说话人个数和说话人性别相对均衡的原则,将RECOLA语料库划分为五个部分。在模型训练的过程中,分别选取IEMOCAP和RECOLA语料库中的一个部分作为测试集,将其他四个部分混合之后随机选取80%作为训练集,其余20%作为验证集,组成5折交叉验证。
2)离散情感语料库实验设置
在离散情感语料库实验中,选择并复现了文献[7,9]中的方法作为基准方法。采用维度情感语料库实验中的配置对所有语料进行了FBank特征和IS 2010特征的提取。分别从四种不同语言的语料库中随机选20%的样本作为测试集,将其余数据混合之后组成训练集和验证集,每组对照实验重复进行50次,取50次实验结果的平均值作为该模型最终的识别性能。
所有的实验均在Ubuntu16.04LST操作系统下完成,开发语言为Python3.6.2,深度学习框架为Keras2.2.0及Tensor Flow1.8.0,GPU为NVIDIATITANX。超参数α、β的值均设置为1,优化器采用Adam,学习率设为0.0001,batchsize设置为64,迭代次数设置为100,选取在验证集上损失函数最小的模型作为
性能测试模型。
2 3 性能评估
在多语言语音情感识别中,不同语言的情感的类别通常是不平衡的,非加权平均召回率(unweightedaveragerecall,UAR)成为了主流的性能评估标准。因此,实验中采用UAR作为模型性能度量的指标,其计算方式为
UAR=
1
N
∑
N
i=1
recalli,recall=
TP
TP+FN
(16)其中:N为类别种类数;recall为召回率。以二分类为例,符号TP和FN含义如表5所示。
表5 二分类召回率符号含义
Tab.5 Symbolicmeaningofrecallinthebinarycase
真实
预测
(+)(-)
(+)truepositives(TP)falsenegatives(FN)
(-)falsepositives(FP)truenegatives(TN)
1)维度情感语料库实验结果
为了验证CBiLSTMAN方法引入语言分类器的有效性,分别将Valence和Arousal识别设置为主要任务,语言种类识别设置为辅助任务,进行了多组对照实验。与此同时,为了验证多任务学习的有效性,实现了仅识别Valence和Arousal的基于单任务的卷积双向长短时记忆注意力网络(convolutionalbidi rectionallongshort termmemoryattentionnetworkbasedonsingletask,CBiLSTMAN_ST)方法。其中,以情感维度属性Valence的识别为主任务、语种识别为辅助任务的实验结果如表6所示。
表6 Valence识别任务实验UAR性能对比
Tab.6 ComparisonofUARperformanceon
Valencerecognitiontask/%方法任务IEMOCAPRECOLA平均
DNN[9]Valence58.0750.9654.52
ACNN[7]Valence61.7349.3355.53CBiLSTMAN_STValence61.6549.2755.46
CBiLSTMAN(本文)Valence63.5651.5557.56
由表6可知,CBiLSTMAN_ST在Valence识别任务上的平均UAR为55.46%,CBiLSTMAN方法的平均UAR则达到了57.56%的性能。相比于CBiLSTMAN_ST,其在Valence识别任务上的相对UAR性能均值提升了3.79%。由此可知,引入语言种类识别辅助任务,该方法不仅能够学习多语言共享的情感特征,同时也能学习不同语言特有的情感特性,进而学习得到语言相关的情感特征,增强该方法对不同语言语音情感的泛化能力。此外,基准方法DNN和ACNN在两种不同语言的Valence识别任务上的平均UAR分别为54.52%和55.53%。相比于基准方法,CBiLSTMAN方法的相对UAR性能分别提升了5.58%和3.66%。因此,引入注意力机制和多任务学习,能够使模型学习得到不同语言情感显著的特征,缓解情感无关因素带来的不利影响,进而提升模型对不同语言语音情感特征的泛化能力和识别能力,提升情感识别准确率。
以情感维度属性Arousal的识别为主任务、语种识别为辅助任务的实验结果如表7所示。
表7 Arousal识别任务实验UAR性能对比
Tab.7 ComparisonofUARperformanceon
Arousalrecognitiontask/%方法任务IEMOCAPRECOLA平均
DNNArousal69.0157.0463.03
ACNNArousal70.0662.5166.29CBiLSTMAN_STArousal71.8961.3366.61
CBiLSTMAN(本文)Arousal72.1262.1367.13
由表7可知,相比于CBiLSTMAN_ST,CBiLSTMAN方法的相对UAR均值提升了0.78%。此外,相比于基准方法DNN和ACNN,CBiLSTMAN方法在Arousal任务上的相对UAR性能分别提升了6.51%和1.27%。因此,引入注意力机制可以使模型专注情感相关特征的学习,引入语种识别辅助任务可以使模型学到语言相关的情感特征,进而学到语言相关的情感显著特征,提升模型对不同语言语音情感特征的泛化和识别能力。
同时,对语言分类器的识别准确率进行了统计。在Arousal
·
2
7
0
1
·计算机应用研究第38卷
和Valence任务上,英语和法语的语言识别准确率均超过99%,能够准确学习到不同语言语音所具有的特性。其详细准确率如表8所示。
表8 语言识别准确率
Tab.8 Accuracyoflanguageidentification/%
任务英语法语
Arousal99.9999.23
Valence100.0099.23
2)离散情感语料库实验结果
在离散情感语料库上的实验性能如表9所示。相比于DNN模型和ACNN模型,在四种语言上,CBiLSTMAN模型的相对UAR性能的均值分别提升了13.43%和15.75%。与此同时,
相比于CBiLSTMAN_ST模型CBiLSTMAN模型在四种语言上的相对UAR性能均值提升了6.52%。
表9 离散情感语料库实验UAR性能对比
Tab.9 ComparisonofUARperformanceon
discreteemotioncorpora/%方法EMODBEMOVOSAVEEVESD平均
DNN61.9563.6971.0275.9468.15
ACNN63.6762.2261.3679.8866.78CBiLSTMAN_ST69.4173.6464.6082.6272.57
CBiLSTMAN(本文)75.3878.6669.9785.2077.30
同时,本文也统计了语言分类器的识别准确率,如表10所示,四种语言的识别准确率均高于98%。
无论是在维度情感语料库还是在离散情感语料库上,CBiLSTMAN方法相比于基准方法,在UAR性能上都有显著提升。由此可见,基于多任务注意力的多语言语音情感识别方法对多语言语音情感具有更强的建模能力和更好的泛化能力。
表10 语言识别准确率
Tab.10 Accuracyoflanguageidentification/%
德语意大利语英语普通话
98.7299.8999.7498.92
3 结束语
本文提出了一种基于多任务学习的多语言语音情感识别方法。该方法通过引入语言种类识别辅助任务,提升了模型对语言相关语音情感特征提取的能力。同时,使用任务相关的注意力机制对共享特征编码器提取的特征进行任务相关的加权表征,增强了相应任务特征的表征能力,提升了模型对不同语言语音情感特征的泛化能力。实验结果表明,该方法对多语言语音情感有很好的泛化和识别能力。进一步地,本文提出的基于多任务注意力的多语言语音情感识别方法是一个通用的多任务学习方法,未来会进一步探索该方法在跨语言和跨语料库语音情感识别领域的应用。
参考文献:
[1]OrigliaA,GalatàV,LudusanB.Automaticclassificationofemotionsviaglobalandlocalprosodicfeaturesonamultilingualemotionaldata base[C]//Procofthe5thInternationalConferenceonSpeechProso dy.2010.
[2]周晓凤,肖南峰,文翰.基于情感特征分类的语音情感识别研究[J].计算机应用研究,2012,29(10):3648 3650,3676.(ZhouXiao feng,XiaoNanfeng,WenHan.Researchofspeechemotionrecogni tionbasedonemotionfeaturesclassification[J].ApplicationRe searchofComputers,2012,29(10):3648 3650,3676.)
[3]LiXingfeng,AkagiM.Thecontributionofacousticfeaturesanalysistomodelemotionperceptualprocessforlanguagediversity[C]//Procofthe20thA
nnualConferenceoftheInternationalSpeechCommuni cationAssociation:CrossroadsofSpeechandLanguage.2019:3262
3266.
[4]陈闯,ChellaliR,邢尹.改进遗传算法优化BP神经网络的语音情感识别[J].计算机应用研究,2019,36(2):344 346,361.(ChenChuang,ChellaliR,XingYin.SpeechemotionrecognitionbasedonimprovedgeneticalgorithmoptimizedBPneuralnetwork[J].Applica tionResearchofComputers,2019,36(2):344 346,361.)[5]SaghaH,MatejkaP,GavryukovaM,etal.Enhancingmultilingualrecognitionofemotioninspeechbylanguageidentification[C]//Procofthe17thAnnualConferenceoftheInternationalSpeechCommuni cationAssociation.2016:2949 2953.
[6]BerteroD,KampmanO,FungP.Towardsuniversalend to endaffectrecognitionfrommultilingualspeechbyconvnets[EB/OL].(2019 01 19).https://arxiv.org/abs/1901.06486.
[7]NeumannM,VuNT.Cross lingualandmultilingualspeechemotionrecognitiononEnglishandFrench[C]//ProcofIEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.Piscataway,NJ:IEEEPress,2018:5769 5773.
[8]ZhangYu,YangQiang.Asurveyonmulti tasklearning[EB/OL].(2018 07 27).https://arxiv.org/abs/1707.08114.
[9]LeeS.Thegeneralizationeffectformultilingualspeechemotionrecog nitionacrossheterogeneouslanguages[C]//ProcofIEEEInternatio nalConfer
enceonAcoustics,SpeechandSignalProcessing.Pisca taway,NJ:IEEEPress,2019:5881 5885.
[10]XiaRui,LiuYang.Amulti tasklearningframeworkforemotionre cognitionusing2Dcontinuousspace[J].IEEETransonAffectiveComputing,2015,8(1):3 14.
[11]ZhangZixing,WuBingwen,SchullerB.Attention augmentedend to endmulti tasklearningforemotionpredictionfromspeech[C]//ProcofIEEEInternationalConferenceonAcoustics,SpeechandSig nalProcessing.Piscataway,NJ:IEEEPress,2019:6705 6709.
[12]MaoQirong,DongMing,HuangZhengwei,etal.Learningsalientfeaturesforspeechemotionrecognitionusingconvolutionalneuralnet works[J].IEEE
TransonMultimedia,2014,16(8):2203 2213.[13]HochreiterS,SchmidhuberJ.Longshort termmemory[J].NeuralComputation,1997,9(8):1735 1780.
[14]BussoC,BulutM,LeeCC,etal.IEMOCAP:interactiveemotionaldyadicmotioncapturedatabase[J].LanguageResourcesandEvaluation,2008,42(4):335 359.
[15]RingevalF,SondereggerA,SauerJ,etal.IntroducingtheRECOLAmultimodalcorpusofremotecollaborativeandaffectiveinteractions[C]//Procofthe10thIEEEInternationalConferenceandWorkshopsonAutomaticFaceandGestureRecognition.Piscataway,NJ:IEEEPress,2013:1 8.
[16]BurkhardtF,PaeschkeA,RolfesM,etal.AdatabaseofGermanemotionalspeech[C]//Procofthe9thE
uropeanConferenceonSpeechCommunicationandTechnology.2005:1517 1520.
[17]CostantiniG,IaderolaI,PaoloniA,etal.Emovocorpus:anItalianemotionalspeechdatabase[C]//Procofthe9thInternationalConfe renceonLanguageResourcesandEvaluation.2014:3501 3504.[18]HaqS,JacksonPJB,EdgeJ.Audio visualfeatureselectionandre ductionforemotionclassification[C]//ProcofInternationalConfe renceonAuditory VisualSpeechProcessing.2008:185 190.
[19]LiuPan,PellMD.RecognizingvocalemotionsinmandarinChinese:avalidateddatabaseofChinesevocalemotionalstimuli[J].BehaviorResearchMethods,2012,44(4):1042 1051.
[20]EybenF,W llmerM,SchullerB.OpenSMILE:theMu
nichversatileandfastopen sourceaudiofeatureextractor[C]//Procofthe18thACMInternationalConferenceonMultimedia.NewYork:ACMPress,2010:1459 1462.
·
3
7
0
1
·
第4期薛艳飞,等:基于多任务学习的多语言语音情感识别方法
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论