自然语言处理——4.语料库与语言知识库
⾃然语⾔处理——4.语料库与语⾔知识库基本概念
1. 语料库
语料库(corpus)就是存放语⾔材料的仓库(语⾔数据库)。
基于语料库进⾏语⾔学研究-语料库语⾔学(corpus linguistics)
2. 语料库语⾔学
根据篇章材料对语⾔的研究称为语料库语⾔学。-[Aijmer, 1991]
基于现实⽣活中语⾔运⽤的实例进⾏的语⾔研究称为语料库语⾔学。-[McEnery, 1996]
以语料为语⾔描写的起点或以语料为验证有关语⾔的假说的⽅法称为语料库语⾔学。-[Crystal, 1991]
3. 语料库语⾔学研究的内容:
语料库的建设与编纂
语料库的加⼯和管理技术
语料库的使⽤
语料库技术的发展
计算机语言种类1. 20世纪50年代中期之前:早期
语料库在语⾔研究中被⼴泛使⽤:语⾔习得、⽅⾔学、语⾔教学、句法和语义、⾳系研究等
2. 1957~20世纪80年代初期:沉寂时期
3. 20世纪80年代以后:复苏与发展时期
4. 语料库技术复苏的原因
(1)计算机的迅速发展;
(2)转换⽣成语⾔学派对语料库语⾔学的批判不都正确(如指责计算机分析语料是伪技术),有的是⽚⾯的甚⾄是错误的(如对语料数据价值的否定)。
国内语料库研究状况
武汉⼤学汉语现代⽂学作品语料库(1979年,527万字)
北航现代汉语语料库(1983年,2000万字)
北师⼤中学语⽂教材语料库(1983年,106万字)
北京语⾔学院现代汉语词频统计语料库(1983年,182万字)、⽬前北京语⾔⼤学正⾯向“⼀带⼀路”战略开展语料库研究和开发⼯作1991年中国国家语⾔⽂字⼯作委员会开始建⽴国家级⼤型汉语语料库,以推进汉语的词法、句法、语义和语⽤研究,其计划规模将达7000万汉字
清华⼤学汉语歧义切分语料库(1998年,1亿汉字),后来在汉语树库、篇章语料库建设等⽅⾯做了⼤量研发⼯作
语料库的类型
1. 按内容构成和⽬的划分(4种类型)
异质的(heterogeneous)-[黄昌宁,2002]
最简单的语料收集⽅法,没有事先规定和选材原则。
同质的(homogeneous)
与“异质”正好相反,⽐如美国的TIPSTER 项⽬只收集军事⽅⾯的⽂本。
系统的(systematic)
充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。
专⽤的(specialized)
如:北美的⼈⽂科学语料库。
2. 按语⾔种类划分
单语的
双语的或多语的
篇章对齐/ 句⼦对齐/ 结构对齐
3. 是否标注?(⽣语料、熟语料)
具有词性标注
句法结构信息标注(树库)
语义信息标注
4. 平衡语料库
平衡语料库着重考虑语料的代表性与平衡性。
语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。
5. 平⾏语料库
两种含义:⼀种是指在同⼀种语⾔的语料上的平⾏,例如,“国际英语语料库”,共有20个平⾏的⼦语料库,分别来⾃以英语为母语或官⽅语⾔和主要语⾔的国家,如英国、美国、加拿⼤、澳⼤利亚、新西兰等。其平⾏性表现为语料选取的时间、对象、⽐例、⽂本数、⽂本长度等⼏乎是⼀致的。建库的⽬的是对不同国家的英语进⾏对⽐研究。
另⼀种平⾏语料库是指在两种或多种语⾔之间的平⾏采样和加⼯,例如,机器翻译中的双语对齐语料库
6. 已有的双语资源
7. 共时语料库与历时语料库
共时语料库是为了对语⾔进⾏共时(同⼀时段)研究⽽建⽴的语料库。研究⼤树的横断⾯所见的细胞和细胞关系,即研究⼀个共时平⾯中的元素与元素的关系。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。