中文信息处理的应用的研究报告
中⽂信息处理的应⽤的研究报告
中⽂信息处理的应⽤研究报告
在多元化的信息中,⽂字信息是⼀种最普遍的形式。例如:⽂件、信函、报表、记录、印刷品等基本上采⽤⽂字表达的形式。“中⽂信息处理”⼀词是从20世纪70年代流⾏起来的,实际上,⾃古以来,中⽂信息处理⼯作源远流长。可以说,⾃从有了中⽂
(汉字),即相应地出现了中⽂信息处理的⼯作。从开始编制第⼀部汉字字典和编写第⼀篇⽂摘起就开始了中⽂信息的分析与综合处理的研究。然⽽,现代⼈们⾔及的“中⽂信息处理”包括了有关中⽂信息的采集、存储、传输和利⽤,是指利⽤电⼦计算机和现代通信、照明、排版、等⾃动化技术对汉字信息进⾏输⼊输出整理、加⼯、转换、传输、复制、等各种处理的⼀项新兴的科学技术。其交叉性使之成为“信息科学”的分⽀;其综合性应⽤使之成为“系统⼯程”的⼀个实例。它涉及到语⾔⽂字学、计算机科学、信息科学、⼯程⼼理学、数理统计学、声学、⾃动识别技术、⼈⼯智能、⽹络技术、⽂献检索学等等。故可以说它是⼀门新兴的多边缘科学。中国要实施先进的信息处理技术⼿段,中⽂信息化是⼀项重要的资源开发⼯作。中⽂信息⽹已逐渐成为我国现代化社会的神经系统,它将促进⼈民⽂化和社会⽣产效率迅速提⾼。中⽂信息处理⼯程已建⽴起现代化中⽂语⾔⽂字信息系统,使凝聚在语⾔⽂字中的知识信息发挥更⼤效能,使汉语汉字得到最佳利⽤。
计算机中⽂信息处理技术从70年代⾄今,经历20多年,完成了由初级阶段向⽐较成熟阶段的过渡,这是微电⼦技术和IT技术⾼速发展以及迫切的应⽤需求所促成的。
现在,许多移动电话都已具备中⽂菜单和显⽰中⽂短信息功能,但都有缺陷,还不是真正意义上的“全中⽂”。只有当它既能显⽰中⽂⼜能输⼊和处理中⽂,也就是说,能直接利⽤⼿机进⾏中⽂输⼊时,才可以说是“全中⽂”。然⽽,⼀般移动电话仅有数字键,这⽆疑对汉字数字输⼊法(简称数字码)提出了很迫切也是很⾼的要求。顺便说⼀下,在WAP技术成为新的热点之时,连英⽂也⾯临着需要编码输⼊的严峻事实。
当前,美国、⽇本及我国⾹港特区都在⼤⼒发展⼀种双向寻呼机,它同时具有输⼊功能,即,它同样也⾯临着中⽂处理问题。还有电⼦词典,如何⾼效、规范化地利⽤电⼦字典查汉字和单词,也是只能各位信息处理应该解决的问题。
信息家电也会是⼀个热门话题,它也⾯临着中⽂信息处理的问题。另外,从计算机本⾝的发展来看,⼿持机(包括PDA和汽车电脑)和可佩带式计算机的中⽂信息处理尚有诸多问题需要解决。可佩带式计算机还处于发展初期,其应⽤领域⼴泛,尤其在军事上有很⼤的⽤途,⾯临新军事⾰命的挑战,我国在研究其相应设备时,⾸先遇到的就是中⽂信息处理问题。
微软和IBM公司在中国成⽴了研究院和研究中⼼,⼴揽⼈才,其主要研究⽅向是中⽂信息处理。
在计算机⽹络⽅⾯,中⽂信息处理将具有更加⼴阔的前景。⾼效的中⽂搜索引擎、电⼦邮件、中⽂电⼦商务等技术均与中⽂信息处理密切相关。移动电话、信息终端等电⼦设备对以数字为基础的计算机汉字输⼊⽅法的需求⼜成为研究领域的新热点。在语⾳识别汉字输⼊⽅⾯,硬件的进⼀步微型化、连续语⾳识别、噪声背景下的语⾳识别以及汉语⼝语理解等都是亟待解决的难点。⼿写汉字识别技术⽅⾯,联机状态下的笔写⼊⽅式,通常的⿇烦就是字与字之间书写的停顿时间不易控制,⼿写得慢了,多部⾸的组合汉字被分了家,造字错字;写得快了,或字与字之间的停顿太短,会将两个单字拼凑成⼀个字,⼜成了错字。
尽管有调整改变⼿写速度“快速、中速、慢速”等技术措施,实⽤中却使⼈感到频繁换⽤⿏标时的不便乃⾄产⽣厌烦情绪⽽不愿使⽤了。⾮特定的脱机⼿写汉字识别的困难则更多。
⽬前任处于实验研究阶段,尚未进⼊真正实⽤状态,还有许多棘⼿难题需要逐步解决。因此,在今后数⼗年内,中⽂键盘输⼊⽅法任然会是处于主导地位的输⼊技术。
⽂字信息的表现形式是多元化的。⽂字信息是⼤多数信息表现形式的基础,⽽⽂字信息处理则是基础的基础。中⽂信息处理包含中⽂⽂字信息处理、中⽂⽂献信息处理以及中⽂的各种管理系统和服务性系统。
利⽤计算机解决汉字的信息处理问题是20世纪中期以来的事,它包含有输⼊、存储、处理、传送、输
出等环节。下⾯着重介绍输⼊和输出两个环节。
汉字的输⼊技术。
1.单字、词汇和语句的键盘输⼊
(1)专⽤型的中键盘或⼤键盘整字输⼊⽅式
⼤键盘:⼀键⼀字输⼊⽅式。
中键盘:⼀键多字输⼊⽅式。
(2)通⽤⼩键盘
拼⾳⽅式:利⽤字⾳编码输⼊。
汉语拼⾳⽅式:全拼⾳⽅式。
双拼⽅式。
拼形⽅式:利⽤字形特征编码输⼊。
笔画笔形式
偏旁部⾸式
字形结构式
混合式。
⾳形混合:以⾳为主,以形为辅
形⾳混合:以形为主,以⾳为辅
2.⼿写输⼊⽅式
3.语⾳输⼊⽅式
4.扫描⽅式
5.传真⽅式
汉字的输出技术
wap歌词中文是什么意思1.汉字的输出有多种⽅式
(1)屏幕显⽰:显像管显⽰器、液晶显⽰器;
(2)打印机:针打式、喷墨式、激光打印;
(3)语⾳输出;
(4)绘图仪;
(5)传真机。
2.汉字输⼊输出所必需的汉字库
计算机系统中存储汉字字形信息的字库,字库分为三种类型:
(1)点阵字库;
(2)⽮量字库;
(3)曲线字库:整字轮廓字库、压缩字库。
中⽂信息处理基础理论⽅⾯的研究内容
(1)汉字识别(包括印刷字体、限制性⼿写字体及⼀般⼿写字体);(2)汉语语⾳识别(包括语⾳波形编码和解码、语⾳的分解与合成);(3)汉语⾃然语⾔的理解与处理;
(4)汉语的机器翻译;
(5)中⽂⽂献的⾃动勘误、⾃动标引和⾃动⽂摘;
(6)汉字的单字、词汇使⽤频度的研究;
(7)汉语的词语、语法、语料库研究;
(8)中⽂信息处理应⽤平台研究;
(9)汉字编码理论研究;
(10)汉字编码⽅法研究;
(11)汉字编码⽅案评测标准研究。
中⽂⽂献信息处理⼯作内容
(1)利⽤各种编辑软件进⾏编辑排版。
(2)利⽤制表软件编制各种表格。
(3)利⽤数据库软件建⽴各种各样的⽂献信息数据库及其他各种应⽤软件系统,例如:研制各种类型图书馆或⽂献服务中⼼的集成式管理系统、检索系统;档案部门的集成式管理系统、检索系统;出版社、书店的集成式管理系统、检索系统;各种书刊⽂献、档案的⾃动分类系统、⾃动编⽂摘系统或其他的智能式⽂献处理系统。
应⽤中⽂的各种管理系统和服务性系统
国家各部门、⼚矿企业、银⾏、医院、酒店的管理系统,专家系统,信息咨询检索系统,电化教学系统,远程教育系统,电⼦印刷排版系统,办公⾃动化系统,翻译系统,通信
系统,财会系统,售票系统,咨询服务系统,电话系统等等,多不胜数。随着计算机信息处理应⽤范围的扩⼤,中⽂信息处理技术还将逐步深⼊和提⾼。
中⽂信息处理的特点是与西⽂信息处理相⽐较⽽⾔的,特点和任务是相互联系的。下⾯从⽂字、词汇、语⾳、语法以及软硬件系统等⽅⾯作⼀下介绍。
⼀、中⽂信息处理的特点
(⼀)⼤字符集
英⽂等西⽅语⾔的书写符号使⽤的是字母表式⽂字符号系统,字母数量较少。⼀种⽂字,包括⼤⼩写、数字及各种标点符号等,总共不过⼏⼗个,属于“⼩字符集”。例如:拉丁字母符号有26个;斯拉夫字母有33个;⽇⽂假名号称“五⼗⾳图”,实际上只有48个,平假名和⽚假名合在⼀起共96个;韩⽂字母有10个元⾳字母,14个辅⾳字母,⼀共24个;汉语注⾳字母有40个,采⽤拉丁字母后的《汉语拼⾳⽅案》有26个字母。
汉字属于“⼤字符集”:常⽤汉字3500个,通⽤汉字7000个,历史累积汉字多达6万。千百年来,代有递增:从东汉末年的《说⽂解字》到清代《康熙字典》,1500多年的时间⾥汉字的数量就从9353字增加到47043字,平均每300年⼜增加了7000多字。1994年《中华字典》创造了字典收字数量之最——字头数多达86000个。
国家标准《信息处理交换⽤汉字编码字符集.基本集》(GB2312-80)共收汉字图形字符6763个。我国港台地区使⽤的繁体汉字13053个。《统⼀的中⽇汉国标准⼤字符集》(CJK)收字20902个。这仅仅是中国(包括台湾)、⽇本、韩国,当前电脑中所使⽤的汉字。要实现“全汉字”的信息处理⼤⽬标,单是汉字库的研制就任重道远。
(⼆)编码⽅案众多
使⽤字母数字键盘输⼊汉字信息,必须通过汉字编码。
因为汉字是形⾳义的统⼀体,编码时所采⽤的信息类型不同,会有不同的编码规则和⽅案。因此,⽆论从编码的⾓度,还是从使⽤者的⾓度,都⾯临多样化的选择。
(三)形体多样,结构复杂
⼀个汉字就是⼀个独⽴的⼆维的拓扑图形。五种基本笔画“横”、“竖”、“撇”、“点”、“折”、,存在多种笔形变体。如:“千”、“⾯”、“令”、“⽊”、“才”等字中的“撇”,“⽅”、“房”、“放”、
“芳”、“游”等字中的“⽅”。汉字结构层叠错落,笔画、字根、偏旁、部⾸、部件、字元,见仁见智,难以统⼀,这些汉字字库的研制以及字形的标准化都带来了相当打的困难。
(四)汉字⽅⾔分歧严重
现代汉语有七⼤⽅⾔区,每个⽅⾔区内⼜有次⽅⾔区,次⽅⾔区下还有不同的⽅⾔点。普通话普及应⽤⽔平远未达到语⾳识别、⼈机对话所要求的规范化和标准化的程度。因此,⽅⾔语⾳分歧成为语⾳信息处理的瓶颈。
(五)同⾳现象突出
现代汉语共有4125个不标调⾳节,按《基本字符集》6763个汉字计算,每个⾳节约有16.4个同⾳字;如按《汉语⼤字
典》54678字计算,每个⾳节的同⾳字平均达到132.7个。
(六)书⾯含有没有分词标志
西⽅采⽤拼⾳⽂字,书⾯上词与词之间⽤空格加以分隔,因此很容易进⾏词汇的统计分析和认知处理。
(七)汉语没有形态
汉语的词⽆论冲当什么成分,构成什么关系,词形本⾝没有任何变化,只有依靠虚词、语序进⾏语法分析,不利于计算机的处理。
(⼋)词的兼类与活⽤复杂
词类划分不⼀,存在⼤量“兼类”。
(九)语法规则多有例外
词语搭配缺乏规范化的约束,⼈们习惯于意会⽽不注重形式标志的规则。
(⼗)歧义现象突出
词汇歧义本来是语⾔中的⼀个⽐较普遍的现象。
⼆、中⽂信息处理的展望
中⽂信息处理三⼗年来的发展,在⼏个重要领域,如汉字编码、汉字语⾳模式识别、字型技术中⽂电⼦辞典,计算机辅助翻译、全⽂检索等⽅⾯,都取得了举世瞩⽬的成就。由于
汉语⾔⽂字的特殊性和我国的具体国情,与世界发达国家信息处理技术相⽐,还有相当⼤的距离。
未来中⽂信息处理的创新发展,概括起来主要有以下⼏个⽅⾯:
(⼀)信息化
当代世界已经进⼊信息⽹络化时代,全⾯信息化是社会发展和科技进步的主流。信息处理技术的⽔平反映了⼀个国家和民族的⽣存能⼒、⽣存质量、综合竞争⼒。
在这样⼀个时代,充分必要的信息和先进的信息处理技术都是极其重要的资源,如果不掌握它、控制
它和利⽤它,⽆论对个⼈还是对整个社会,都将是⼀种悲剧。因此,⼀切竞争都集中反映在信息的获取、传输、处理和运⽤技术上。应该把推进社会全⾯信息化作为中⽂信息处理基础应⽤研究的⾸要任务。
(⼆)智能化
从计算机实现由数据处理到信息处理跨越的那⼀刻,就极⼒信息⼯程界的先驱者们开始了计算机智能化的研究。虽然历史不长,但是,初始化的灵感与冲动给⼈们描述了美好⽽诱⼈的前景。
机器⼈战胜国际象棋冠军的实例,演⽰了计算机智能在与“个体⼈”的智能之间的⼀次较量,证明了计算机能够战胜“个体⼈”。从这个意义上说,计算机智能是具有⽆限前景的⼀个新领域。
计算机究竟能不能获得智能,如何获得智能,以及计算机智能与⼈类智能的同质性和异质性,等等,尽管⽬前还没有答案,但可以肯定地说,计算机⼈⼯智能与语⾔⽂字信息处理智能化密切相关。
应该充分认识到,中⽂信息处理智能化与我国的社会发展、科技进步、⽂化教育、经济建设以及国家安全有着密切关系。信息处理技术智能化的竞争是⼀个没有硝烟的战场。在这场关系到民族和国家⽣存、发展的竞争中,只能前进,不能后退,只能成功,不能失败。(三)⼯程化
知识经济是计算机信息⾰命引发的新概念,语⾔应⽤研究成果的产品化和市场化是知识经济的⼀个重
要表现,中⽂信息处理⼯程化是信息⽹络时代的重要特征之⼀。应当从系统⼯
程的⾓度看待和从事中⽂信息处理基础应⽤的创新研究,处理好、兼容与⾃主创新的关系。
中国⼈对国外软件硬件产品和技术的过程,存在⼀个消化理解和改造创新的问题。由于国际化市场经济规律的作⽤,国外许多计算机软件公司纷纷瞄准中国市场,投资开发中⽂应⽤软件。微软公司凭借其强⼤的经济技术实⼒和现代化软件⼯程的概念,在中⽂信息处理领域,主动与兼容,展开了全⽅位、友好界⾯的系统攻关,不断推出使⽤⽅便、服务周到、技术含量⾼的包括简繁兼容、中⽇韩汉字兼容等的应⽤系统,成为市场的主流产品。着对我国中⽂信息处理软件⾏业的⽣存和发展、对中⽂信息处理技术的进步和数据安全等,都是⼀个巨⼤的挑战。
(四)国际化
中国拥有世界四分之⼀的⼈⼝,中国改⾰开放和经济腾飞不仅改变了中国⼈民的⽣活⽔平和⽣存⽅式,也使中国的和平崛起战略在全球⼀体化⼤潮中直接间接的影响和改变着世界。
中⽂信息处理技术已成为世界瞩⽬的热点。单纯从经济⽬的出发,也⾜以吸引世界发达国家信息⼯程界有识之⼠的⽬光。
微软、IBM等多家外国计算机公司在我国设⽴研究所,聘⽤我国信息处理⼈才,在汉字编码、汉字识
别、语⾳识别等许多领域,投⼊巨额经费,从事中⽂信息处理智能化的研究。
事实证明,中国要⾛向世界,中⽂也要⾛向世界,国际化是鲜红我信息处理发展的必然趋势。
(五)标准化
中国不但是⼈⼝达国,还是民族⼤多,多⽅⾔⼤国。中国语⾔⽂字具有悠久的历史传统,载负了丰富灿烂的⽂化遗产。全球范围内⽅兴未艾的“汉语热”,给中⽂信息处理提供了新的研究课题和发展空间。因此,应当充分认识和发挥我们的资源优势,在⾃主创新⽅⾯掌握主动权。
汉语没有严格意义的形态标志这⼀特点,使西⽅计算语⾔成果和经验不能完全适⽤,同时增加了计算机⾃动分词识别和句法语义分析的难度。因此,汉语⾔⽂字的规范化已经成为中⽂信息处理智能化的瓶颈。在汉语⾔⽂字的规范⽅⾯,中国⼈有发⾔权。
在信息技术和信息产业⽅⾯,永远是“⼀流出标准,⼆流出技术,三流出⼈⼯”。如何把汉语⾔⽂字规范化的成果变成全世界都遵守的标准,把汉语⾔位⼦信息资源变成巨⼤⽆⽐的财富,应当成为当前和未来中⽂信息处理基础应⽤研究的⾸要课题。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。