声调识别错误的统计分析_语音输入软件测试报告之一_蒋平
[收稿日期]2003-01-01
[作者简介]蒋平,女,香港中文大学现代语言及文化系副教授,加拿大英属哥伦比亚大学语言学系博士,主要从事音系学理论研究以及语言学在资讯科技中的应用研究。吴振国,男,华中师范大学语言学系主任,副教授,博士。主要从事语法学和应用语言学研究。
*本项研究由本文第一作者主持,获香港特区政府研究资助局Earmarked Grant 资助(R GC 项目编号为CUHK445899H )。朗大地先生参与了测试材料的设计。在此一并致谢。
声调识别错误的统计分析
———语音输入软件测试报告之一
蒋 平1
 吴振国
2
(1.香港中文大学;2.华中师范大学 武汉 430079)
  [摘要]本文旨在测试语音输入软件对语音识别的正确率,重点分析语音输入软件对声调识别错误的类型及影响出错的因素。测试结果显示:声调识别错误占总测
试字次的19.4%,其中轻声词和轻读音节的出错率最高。统计分析表明,影响声调识别正确率的因素主要有三种:(1)不同的声调类型;(2)发音人及其不同方言背景;(3)不同语体。本文考察结果为改进语音识别、语音输入软件提供了参考数据。
[关键词]语音识别;语音输入;声调;统计分析
[中图分类号]H017[文献标识码]A [文章编号]1003-5397(2003)02-0022-08
A Statistical Analysis of Errors in Tone Recognition :
A Report on Voice -Input Software Testing
Jiang Ping ,Wu Zhengguo
A bstract :This paper examines the accuracy rate of voice -input software ,focusing par -ticularly on t
he natur e and causes of tone recognition errors .Our test results show that tone recognition errors account for 19.4%of all words tested .Most of these errors are in rec ogniz -ing atonal and unstressed syllables .Our statistical analysis reveals that three main factors lead to err ors in tone recognition :(1)differ ent tonal types ,(2)different dialectal backgr ounds ,and (3)different registers .This paper provides references for improvement of voice -input soft -ware .
Key words :Speech rec ognition ;voice -input ;tone ;statistical analysis
2003年5月第2期语言文字应用Applied Linguistics May ,2003No .2
一 导 言
过去几十年,电脑的普及改变了语言学家的学术生活。它不仅给语言学家提出了新的研
教师考核个人总结究课题,而且为语言学家提供了新的语料及分析语料的新工具(La wler &Dry 1998)。自然语言处理应用软件的开发,将语言学研究与高科技应用紧密结合在一起,已经改变并继续改变着人们的日常生活。比如,中文电子文本有多种输入方式:键盘输入,手写输入,扫描输入,语音输入。在各种输入方式中,语音输入最有优势。第一,速度快,它比键盘输入和手写输入快得多。第二,方便,输入者不需花精力学习和记忆。第三,经济,它不需要特别的硬件设备。扫描输入虽然也很快,但前提是要
有现成的文字材料和扫描仪设备,而且也不便于移动使用。语音输入不仅能输入文字,而且能输入命令,实现对机器的语音控制。随着移动通讯的快速发展和手机上网的逐步普及,语音输入的优势会更为明显。
语音输入虽然有明显的优势,现在市面上语音输入软件也很多,而且微软公司的最新集成办公系统Office XP 也嵌入了语音识别软件,但事实上目前采用语音输入的人并不多。原因当然是多方面的,但最根本的原因是,目前的语音输入软件对语音识别的正确率很不理想。如果语音识别的正确率很高,肯定会成为最受欢迎的输入法。因此,提高语音输入软件对语音识别的正确率,就成了语音输入发挥优势、广泛应用的关键。
要提高语音输入软件对语音识别的正确率,首先要分析现有的语音输入软件的问题所在,了解影响识别正确率的各种因素,然后才能对症下药,加以改进。
本项研究旨在测试目前市面上较流行的语音输入软件———以IB M Via Voice 中文语音识别系统为核心的“汉王听写”软件(2000年版)———对语音识别的正确率,分析语音识别错误的不同类型,寻影响语音识别正确率的原因。本文着重分析声调识别错误的类型及影响声调识别正确率的原因。
二 测试设计
语音识别的测试始于1990年至1995年。当时对语音识别系统的测试是与对自然口语理
解系统的测试结合在一起,由资助这方面研究的机构DARP A 推动(Price 1996)。通行的测试方法是基于语料库的方法(corpus -based method ),因为语音识别系统的建立和训练依赖于大量录音语料及其转写材料(Bayer et al .1998p .235)。本项研究也以建立录音语料库为基础,对语音识别软件进行测试和分析。
根据对语音输入软件试用的情况,我们初步假设影响语音识别正确率的主要因素有方音、语速、语体、同音字词等。基于这一假设,我们设计了下列五个步骤进行测试。2022年高考英语答案
第一,拟定测试材料。我们拟定了50个语段,其中包括同音词、容易受方言影响而出错的词语和不同语体(口语、书面语、古诗词、体育节目现场直播)的语句。这50个语段大致分为四大类。第一类是比较典型的口语语体,第二类是接近书面语的口语体,第三类是接近口语的书面语体,第四类是比较典型的书面语体。
第二,挑选发音人。我们挑选了13位华中师范大学语言学系和中文系的在校本科生,他们在家里都说方言,在学校一般说普通话。他们普通话的水平没有作特别挑选,但都还不错。13位发音人(分别用编号表示)的方言背景如下:
1号:女,广西桂平人,说粤语。    2号,女,湖南衡阳人,说湘语。
·
23·2003年第2期蒋 平 吴振国:声调识别错误的统计分析
3号,女,福建漳州人,说闽语。4号,男,广东韶关人,说客家话。5号,男,安徽阜阳人,说徽语。6号,女,江西黎川人,说赣语。7号,男,浙江杭州人,说吴语。腾讯网络游戏
8号,女,重庆人,说西南官话。9号,女,湖南衡阳人,说湘语。10号,男,山西太谷人,说晋语。11号,女,广西柳州人,说粤语。12号,男,福建福清人,说闽语。
13号,男,福建长汀人,说客家话。
第三,录音。每位发音人分别用慢速、中速和快速将测试材料念三遍,同时进行录音并记录识别结果。测试时,要求发音人用尽量自然的普通话朗读测试材料,就像平常念报纸一样读,用自己习惯的普通话自然朗读,不要求刻意追求标准规范。语气不作特别要求,以贴近口语习惯为宜。
第四,标注识别错误。挑选受过语音训练和普通话较好的同学对识别结果的错误进行手工标注。负责标注的同学须将识别结果、录音和原始测试材料加以对比,对识别错误进行分类标注,如:声母错、韵母错、声调错、声韵调都错、字错(声韵调都对),等等。
第五,建立数据库。我们将识别结果与识别原材料一起以字为单位制作成对照数据库,这样可以从各种角度进行统计分析。在制作数据库的过程中,利用数据库统计的优势,发现并纠正了不少原来标注
中的错误和不一致现象。
标注和统计测试结果的错误时,主要考虑识别结果与测试材料的异同。如果发音人因为方言等因素的影响而导致识别结果与测试材料不一致的,都算识别错误。因为我们测试的目的之一,就是要看语音识别软件对带方言口音普通话的适应能力。语音识别软件的用户大多数普通话都不太标准。语音输入软件不应该要求用户的普通话十分标准才能保证识别正确,而应该具备相应的适应能力。此外,因为连读音变导致识别结果与语料不一致的,即使识别结果与实际发音相一致,也算语音识别错误。如“你有”识别成“泥有”,也算声调识别错误。这样处理,也是为了考察软件对语流音变的适应能力。
测试结果显示,该语音输入软件对不同发音人语音识别的正确率在43—70%之间。其中方音、文体、同音字词对识别正确率的影响都很大,语速的影响不大,口音适应前后的区别也不明显。在测试和统计的基础上,我们分别就语音识别中的声调、声母、韵母和同音字词的识别错误进行了统计分析。下面主要报告对声调识别错误进行的统计分析。
三 统计分析
进行声调识别错误统计分析时,我们只选择了8位发音人(1—8号)的测试结果进行统计。每个发音人都测试了三遍,但统计时,都只取其中识别正确率最高的一次测试结果。这样做是因为每人的三次测试正确率相差不明显,如果全部统计,工作量将增加两倍,可是对统计结果影响不明显,意义不大。
测试材料字数2437字,8人总计19496字次(不包括标点符号)。其中声调错误(包括加字、减字的声调)总计3783字次,占识别字次总数的19.4%。
分析统计结果发现,声调识别错误主要表现为三个大的方面:一是不同声调类型的错误率有明显差异,二是不同发音人的错误率有明显差异,三是不同语段的错误率有明显差异。
(一)不同声调类型的差异
不同声调类型的识别错误率见表1。为了简便,我们用数字代表不同调类:0=轻声;1=
·
24·    语言文字应用2003年第2期
阴平;2=阳平;3=上声;4=去声。表1从左至右的第一竖行是测试材料原字的调类,第二竖行是相应的识别结果的调类,第三至第十竖行分别是对8位发音人的语音识别的出错字次数,最右边的竖行是各调类识别错误的总数。
表1 不同发音人声调错误分类统计总表
原调现调1号2号3号4号5号6号7号8号共计013232246527029471229410570332598743410
4
13314910119978小 计:2811293222312327203102202101081220207332518182016113813727241210151161
4
5147405181304035375小 计:818254113131606970660202112011192121201823341018301742327512551391732292712
4
2830122041142124190小 计:781025696114427284644304241111418311961311181313161093228232549472430332593
4
8226284339163745316小 计:13357701041055481987024004132113154126201530361427442124216251322361434251854
夏天的文案
3
1455162432413833253小 计:56104457910670100105665加0315*******加120419241213189119加
2
15
9
22
22
16
15
23
9
131
·
25·2003年第2期蒋 平 吴振国:声调识别错误的统计分析
原调现调1号2号3号4号5号6号7号8号共计加38914201292016108加
4
296122818194014166小 计:75297296616210550550减02467333292818175减131284722341减247471105745减33815815738减
4
3738143101260小 计:1580235772155047359总 计:
466
465
349
577
611
334
500
481
3783
  从表1可以看出不同发音人的声调识别错误在不同调类中的表现情况。以这个统计表为基础,我们可以统计、计算出不同调类的错误率(不包括加字声错误),见表2。第一横排从0到4分别代表轻声、阴平、阳平、上声、去声。
表2 不同调类错误率统计表
调 类01234总计总字次1297431142013414627319496错字次3787016897417243233错误率
29.14%
16.26%
怎么发消息给所有人
16.40%泰罗奥特曼大全
21.70%
11.54%
16.58%
  从表2的统计数字看,各调类中错误率最高的是轻声字,错误率为29.14%;其次是上声字,错误率为21.70%;阴平、阳平相近,错误率分别为16.26%和16.40%;最低的是去声字,错误率为11.54%。以下对各调类识别错误情况做一些具体分析:
1.轻声字和轻读音节字错误较多。减字错误大多数减的是轻声字或轻读音节字。减字错误总数为359字次,其中属于轻声的就有175字次,占了减字错误的近一半。其他减字大多数也属于轻读音节字。例如:“办案人员”识别成“但人员”,“倒也敏利”识别成“到严密”,“朝朝暮暮”识别成“朝朝暮”,“滑移”识别成“华”,“这么一辆”识别成“这么样”。又如轻读的介词“于”总共出现48次,漏掉9次,副词“就”漏掉7次。其他轻读音节,如副词“都”“也”,方位词“上”“下”“里”,趋向动词“来”“去”,数词“一”、量词“个”,重叠词的轻读音节,等等,都容易漏掉。
加字错误大多数加的也是轻读音节。例如:“农运会”识别成“农业社会”,“低”识别成“第一”,“赛场”识别成“比
赛场”,“可几个”出现8次,有4次识别成“科技几个”,“塑膜”识别成“生物膜”,“扭”识别成“没有”,“摔”识别成“是该”,“非专业”识别成“非常鲜艳”,“既不”识别成“进一步”,“击其要害”识别成“机器一样还”,“无电”识别成“无机盐”,“不能为”识别成“不能不为”,“都必”识别成“都不必”,“正轻盈”识别成“政治经营”,“是五代”识别成“事务代理”,“见耶户”识别成“建议用户”,“仆人”识别成“辩护人”,“怎样行”识别成“怎样吸引”,“往还”识别成“往怀里”,“再将”识别成“在于将”,“吞咽”识别成“这一夜”,“灯体上”识别成“根据以上”,“皇上”识别成“环节上”。
·26·    语言文字应用2003年第2期
2.阴平错为去声的远高于错为其他调类的。阴平错误总数为660字次,其中阴平错为去声的就有375字次,占阴平识别错误总字次的56.82%。这种现象也与轻读音节有关。因为阴平和去声在重读和读本调时差别较大,可是在语流中轻读时差别就很小了,容易相混。如:“八
鲜行里”识别成“发现内涵呢”或“八厂里”或“发现行利益”。其中阴平字“鲜”两次错为去声字“现”,一次漏掉。“发现”的“现”也属于轻读音节,加上“八鲜”是不常见的词,“发现”是常见的词,所以将“八鲜”识别为“发现”。又如“上衣”识别成“善意”,“搞些”识别成“高兴”,“噪声”识别成“照射”;“现象”识别成“信箱”,“唱个”识别成“唱歌”。
此外,这种现象与去声的连读变调也有密切关系。两个去声字连读,前一音节变成53,就与阴平55比
较接近,也容易相混。例如“耶户”错为“用户”“业户”,“脱下”识别成“坐下”,“驱车”识别成“据测”,“瞌睡”识别成“课税”,“鸥鹭”识别成“过路”,“河边上”识别成“和地上”,“滩上”识别成“太上”,“专册”识别成“正册”,“吃掉”识别成“去掉”“适当”,“说个”识别成“是个”,“郭哥”多次识别成“顾客”,“正是”识别成“真是”,“进进出出”识别成“经济粗粗”,“剑术”识别成“接受”,“像个”识别成“香客”,“训练”识别成“新意”,“适应”识别成“诗意”。
3.上声错误较多,跟上声连读变调关系密切。上声的两个变体35和21分别接近于阳平和轻读或变调的去声,所以上声错为阳平或去声,或阳平、去声错为上声的较多。其中上声错为阳平的共259字次,上声错为去声的共316字次,合计575字次,占上声识别错误总数702字次的81.91%。此外,阳平错为上声的有271字次,去声错为上声的有253字次,在阳平、去声错误中所占的比例也都是最大的,其中有相当一部分也与上声和去声的变调密切相关。例如:“晶界”识别成“精简”,“中子”识别成“宗治”,“混响”识别成“未向”,“较好”识别成“降耗”,“王燕”识别成“网眼”,“夺走”识别成“左手”,“琉璃厂”识别成“修理厂”,“蚂蚁”识别成“满意”,“好几百种”识别成“豪气白昼”,“只有”识别成“时有”,“以纸”识别成“遗址”,“成本”识别成“城内”,“回府”识别成“回复”,“两尾”识别成“两位”,“教养”识别成“校样”,“水中”识别成“税收”,“怎样”识别成“质量”,“现象”识别成“选项”,“使对方”识别成“世界上”。
(二)不同发音人及方言差异
不同发音人的声调识别错误有明显差异。其中说徽语的5号错得最多,错611字次;其次是说客语的4
号,错577字次;错得最少的是说赣语的6号,错334字次,其次是说闽南语的3号,错349字次。但这不一定反映了方言差异,更主要的是反映了说话人掌握普通话的水平。但是错误小类还是明显反映出方言的区别。如说粤语的1号上声错误最多(错133字次),远高于其他声调,其中上声错为去声的又特别多(错82字次)。这说明她对上声掌握得不太好,因此上声和去声容易相混。说湘语的2号错误最多的是去声(错104字次)和阳平(错102字次),其中去声错为上声较多(错55字次),其次是阳平错为上声(错51字次),但是2号的上声字错为其他声调的错误比较少(共错57字次),远低于其他三声。这说明她上声掌握较好。又如说徽语的5号,错误最多的是阴平字(错131字次),其中阴平错为去声的又特别多(81字次)。这些个人差异应该与他们的方言特点有关。但是方言对声调识别错误的影响是十分错综复杂的,因为方言声调与普通话声调不仅调类对应关系复杂(尤其是入声字),实际调值对应关系更复杂,而且又涉及变调,还有文白异读,再加上语言学习的一些复杂心理因素,因此要想具体说明方言对声调识别错误的影响是十分困难的。
此外,识别错误率与发音人的不同性别也有关系,因为发音人的性别影响他们掌握普通话的水平。女生普通话水平明显高于男生,错误较多的前三名都是男生。这一点跟女性语言学
·
27·2003年第2期蒋 平 吴振国:声调识别错误的统计分析

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。