自然语言处理(4)——语料库和语言知识库
⾃然语⾔处理(4)——语料库和语⾔知识库NLP学习笔记(4)——语料库和语⾔知识库
1. 基础知识
对于预先准备的知识材料,分为语⾔数据库(语料库)和知识库两种。
对于语⾔数据句库:主要是⼤规模的语⾔数据,难点在于模型参数训练与评测标准的设置;
对于知识库:包括词汇语义库,词法、句法规则库,常识库等等
语料库语⾔学的定义:基于语料库进⾏语⾔学研究
下⾯介绍其他⼏种定义,可能更有益于对其理解:
根据篇章结构对语⾔的研究称为语料库语⾔学
基于现实⽣活中语⾔运⽤的实例进⾏的语⾔研究称为语料库语⾔学
以语料为语⾔描写的起点或以语料为验证有关语⾔的假说的⽅法称为语料库语⾔学。
关于语料库语⾔学研究的内容:
语料库的建设与编纂
语料库的加⼯和管理技术
语料库的使⽤
2.语料库技术的发展
掌握程度:分清三个阶段的各⾃时间节点,以及判断其低⾕期、复苏的特征及原因
第⼀个阶段:早期,20世纪五⼗年代中期之前
⼆个阶段:沉寂时期,1957-20世纪⼋⼗年代初
沉寂的原因⼤概是由于句法理论的兴起,即NLP先验知识运⽤的另⼀分⽀,知识库的发展
第三个阶段:复苏与发展时期,20世纪⼋⼗年代以后
(1)其复苏的特征有⼆:
第⼀是第⼆代语料库相继建成
第⼆是基于语料库的研究项⽬增多
(2)其复苏的原因同样有⼆:(i)⾸先,得益于计算机的迅速发展,计算能⼒与速度的增强使得语料库技术有了⽤武之地;
(ii)其次,转换 ⽣成语⾔学派对语料库的批判不都正确(如指责计算机分析语料是伪技术),有的是⽚⾯的甚⾄是错误的(如对语料数据价值的否定)
3.国内语料库的研究状况
掌握情况要求:了解现状即可,代表性内容要进⾏记忆
计算机语言种类4. 语料库的类型
按照不同的标准,可以将语料库进⾏许多种划分
(a )按照其内容构成和⽬的进⾏划分:
(1)异质的:仅进⾏最简单的语料收集⽅法,没有事先规定和选材原则
(2)同质的:与上⼀条相反,如美国TIPSTER项⽬只收集军事⽅⾯的⽂本内容
(3)系统的:充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题
(4)专⽤的:如北美的⼈⽂科学语料库
(b )按语⾔种类划分

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。