网页中即时动态显示和输入冷僻字的方法
网页中即时动态显示和输入冷僻字的方法
夏立宁 高玉军 唐英敏 吕肖庆
复联4剧情(中国文字字体设计与研究中心 北京 100871)
(北京北大方正电子有限公司 北京 100085)
(北京大学计算机科学技术研究所 北京 100871)
【摘  要】与其他国家的语言文字一样,字典里的字词,绝大部分都是不常用的。以目前公认的《汉语大字典》为样本,它共收单字五万多。但是,实际通用的汉字并不很多,那些不常见的汉字都被称为冷僻字。伴随着中文信息化技术的发展,越来越多的资料、公文、报刊等都数字化了,使得冷僻字的输入、显示及其传输问题变得越来越突出。本文提及的网页中冷僻字的动态显示和输入,可实现客户端无需安装本地字库和输入法即可进行在线编辑和显示,解决了冷僻字在网络上的编辑、录入和传播等问题。
【关键词】冷僻字,网络嵌入式字库,EOT,在线输入法。
The Display And Input Of Rarely-used Chinese Characters
Processing In Internet
Tang Yingmin, Xia Lining , Gao Yujun
(Institute of Computer Science and Technology, Peking University, Beijing 100871)
(Center for Chinese Font Design and Research, Beijing 100871)
长沙有什么好玩的(Beijing Founder Electronics Co. Ltd., Beijing 100085)
Abstract: Nowadays, rarely-used Chinese characters need to be displayed in e-book, e-mail and internet pages more and more. But lots of them still processed as images in current network age. And traditional input method can’t be used to input these words to a document. With the problem of display and input rarely-used Chinese characters becomes more outstanding. This paper introduces a solution for display and input rarely-used Chinese characters processing in internet. Keywords: rarely-used Chinese characters, Network embedded font, EOT, Online input method 1、引言
汉字的数量并没有准确数字,大约将近十万个,日常所使用的汉字只有几千字。据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字时已到99%,简体与繁体的统计结果相差不大。在汉字计算机编码标准中,早期的国家标准GB2312-80只有6763个汉字,GB18030-2000[1]收录了27484个汉字,而ISO-10646[2]收录的汉字已超过七万。虽然ISO-10646收录汉字已超过7万,
但还有很多字正在等待审定。计算机系统中常用的字库大部分还只有两万多字,所以冷僻字势必会长期存在。随着网络技术的发展,冷僻字的存在给、电子书等电子信息媒介带来了很多不便,因为这些媒介里包含的冷僻字必须通过一定的手段传输到客户端的电脑上才能使阅读者看到这些冷僻字,否则,客户看到的仍是不完整的文档。人名、地名是使用冷僻字较多的领域,涉及到人名、地名的地方,如
果里面包含了冷僻字则会带来很多的麻烦,比如:身份证的办理,人名、地名的显示等问题。人们所熟知的一代证不是通过计算机系统制作的,遇到冷僻字用造字的办法解决这个问题,只要把姓名、住址打印上去就行;实行网络制证,采用网络传输以后,这就带来了一些问题,字库里没有的字,计算机就打不出来,公民就领不到身份证。
目前,电脑里显示的字为TrueType格式,均需预先安装后才能使用和显示,但这些字库通常不包含冷僻字,即便是有了这些冷僻字字库,如何正确、方便、快捷的输出和定位到这些冷僻字也是一直困扰冷僻字应用的一大瓶颈。冷僻字在线输入法通过笔顺、笔划、部首、拼音等多途径结合方式,可以方便的对所有冷僻字进行简单易行的查和定位。
2、基本方法和原理
网页中即时动态显示和输入冷僻字的方法实现了以下功能:
1)客户端无需预先下载冷僻字字库和输入法
2)在此基础上用户可以随意的输入、编辑、显示、检索冷僻字
即时显示冷僻字主要采用了动态生成冷僻字EOT字库的技术,对于用户输入的冷僻字通过调用后台的功能模块,将此部分冷僻字转换成可供网页调用的EOT嵌入字库,同时在当前页面即时调用此EOT字库,这样用户的输入就即时的显示出来了。
冷僻字的输入主要采用的是笔顺、笔画和部首检索的方式,用户无需知道当前的冷僻字的读音即可根据字形按照其笔画和部首来进行查和检索。笔顺检索时,可以按照冷僻字的笔画顺序来一步步选择输入的字母,不同的字母代表了不同的笔画,当输入完毕时即可到所需的字。部首检索时,根据冷僻字的部首,可以到含有该部首所有的字,用户只需从中挑出自己想输入的字即可。这种带有智能引导的输入法模式给用户带来了最简单方便的输入途径。另外,由于输入法本身也含EOT冷僻字字库,所以在输入的时候输入法界面上的冷僻字也是即时可见的。
进而,可以在该技术基础上建立一个冷僻字的使用和交流的平台,对于需要使用和显示 冷僻字的用户,可以在此平台上进行检索并输入自己需要的冷僻字,然后通过即时动态生成的EOT字库将这些冷僻字正常的显示在其他任何网页上。而在线输入法又为此功能提供了必不可少的支持。
3、冷僻字网络嵌入式EOT字库
3.1  EOT字库
IE浏览器里定义了一种网页嵌入字库格式——EOT(Embedded OpenType),这种字库格式解决了在网络中使用冷僻字的问题。EOT是一种压缩字库格式,体积较小,适合在网络上传输,而且可以根据自己的需要做成仅含一部分字符的字库,无需每次都把所有字符都嵌入到字库里,这样就更进一步增加了它的灵活性,减少了文件的大小。同时,EOT字库内嵌了安全机制,它在生成的时候和域名进行了绑定,只有事先绑定的域名才可以使用和显示该EOT字库。
当含有EOT的页面被客户端浏览器打开的时候,客户端浏览器会在后台自动下载页面中引用的EOT字库,下载完毕以后,页面上的冷僻字就能正常的显示出来了,改变了往常使用图片代替冷僻字的方法。既美观,使用又方便,还可以支持搜索。
3.2冷僻字EOT的动态转换方法
就业计划书3.2.1  EOT动态转换概述
虽然微软网站提供了一种生成EOT字库的小工具,但是如果每次都使用此工具进行手动生成,然后再更新到服务器上,还是一件很麻烦的事情,而且不能即时显示需要看到的冷僻字。为了解决这个问题,可以在后台增加一个可以即时生成EOT字库的模块,当前端用户输入冷僻字后,后台会自动调用
此模块,将所输入的冷僻字转换成EOT并在网页中进行调用。这样,用户输入完之后就可以很快看到自己输入的冷僻字了。
图1是即时显示冷僻字的一个简单示意图
图1
钟薛高疑似火烧不化3.2.2  EOT动态转换过程
为了即时生成EOT字库,需要在后台增加一个即时生成EOT字库的模块,在这个模块里面提供了一个函数,通过调用此函数就可以直接生成EOT字库了。在调用函数时,唯一需要传入的就是需要嵌入的字符。在这个模块里面已经预先设置好了需要绑定的URL地址,即当前网页的地址。有了传入的字符,模块还需要结合预先安装的冷僻字字库来生成所需的EOT字库。这个EOT字库就是网页中所调用的EOT字库。
3.2.3EOT的网页调用
有了所需的EOT字库,如果想在页面上即时的调用此字库,还需要即时的给页面加入调用语句,当生成了EOT字库后,模块里面会记录它的路径,然后在当前页面里加入类似如下格式的调用语句:
<STYLE TYPE="text/css">
@font-face
{
font-family:冷僻字嵌入式EOT字库;
src: );
}
</STYLE>
有了这些语句,网页中的冷僻字就可在不预先安装冷僻字字库的情况下正常的调用和显示。
3.2.4动态生成的EOT字库在其他网页上的调用
如果用户需要将这些冷僻字在其他的页面上正确的显示,也可以“定制”这些冷僻字的EOT字库,用户只需把需要显示这些冷僻字的页面URL地址填入到指定的位置,然后输入所有可能用到的冷僻字,提交这些信息后,后台通过调用生成EOT的模块,把这些字符打包成EOT字库,并通过用户给定的域名进行授权,只有用户允许的域名下的网页才能调用此EOT字库。同时,反馈给用户一个下载链接,用户点击此链接后下载生成的EOT字库,这个EOT字库用户就可以用在他希望的那些域名下的网页上了,以后浏览这些网页的其他用户也可以正常的看到这些冷僻字。
4、冷僻字在线输入法
4.1  在线输入法介绍
EOT技术很好的解决了在线显示冷僻字的问题,但是如果想输入冷僻字又该怎么办呢?无法输入就无法进行录入工作和检索工作。在线输入法很好的解决了这个问题。
在线输入法区别于传统IME机制的输入法。它基于浏览器,可以支持常见的IE浏览器,FireFox浏览器以及NetScape浏览器[3]等。而且在线输入法不依赖于当前计算机的地区语言,可实现多文种,如:少数民族文、古文等。在线输入法也不需要在本地进行安装即可在线录入。有了在线输入法,普通用户均可在网页上直接录入冷僻字,其操作界面类似于常见的传统输入法,使用方便。使用完毕后,关闭当前的网页即可自动关闭在线输入法。
图2是方正超大字库在线输入法输入冷僻字的示例。
图2
4.2在线输入法的技术原理
在线输入法是通过HTML、JavaScript、EOT、码表的相互配合来实现的。首先,用HTML 语言描述出在线输入法的界面并保存成HTML文件,然后把描述界面的HTML文件引入到JavaScript程序中,这些JavaScript程序是可以被Web浏览器直接解释和运行的。同时,JavaScript程序里有对键盘键位的响应,网页文本录入焦点的确定等功能。码表作为输入法的重要组成部分,使用IE中的免费ActiveX控件TDC(Tabular Data Control)来进行符合规则的码表数据的绑定和检索。
4.3冷僻字在线输入法的使用
520贺卡内容给女朋友
当用户打开含有在线输入法的网页的同时就会动态生成在线输入法,使用输入法进行冷僻字的输入时,可采用冷僻字在线笔顺检字、部首检字、拼音检字以及三者相结合的方式来
进行输入。用户可以根据自己对三种输入条件的熟悉程度进行选择。
4.3.1  笔顺检字
在笔顺检字里,asdfg五个字母分别代表笔画里的横(一),竖( | ),撇(丿),点(、),折(乙)。
图3演示了“”字的输入方式。
图3
输入前,需要先选中编辑框,然后根据“”字的笔画及其顺序,可以知道该字的笔画依次是:撇、点、点、撇、折、竖、横、折,所以通过输入dffdgsag序列即可得到“”字,然后根据输入法界面中的提示可以知道第0个字即是想要的字,这时按数字0键或空格键,“”字就被输入到编辑框中。
如果不了解当前字的某一笔画应该对应横(一),竖( | ),撇(丿),点(、),折(乙)中的哪
个了,这时还可以通过点击和按钮来向后、向前翻页,直到到想输入的字,然后进行选择即可。和分别表示最后一页和第一页。
4.3.2部首检字
在部首检字方式中,可以先按照部首的笔顺来输入部首部分,当到需要的部首后,输入法会列出含有该部首的所有汉字,用户可以从中到最终想要的字。如果列出的汉字过多不好查,还可以通过输入剩余笔画数来缩小查范围。另外,在输入部首时,除了通过笔顺来输入部首外还可以通过输入部首的拼音来输入部首或者通过输入部首的笔画数然后再进行下一步的查来输入部首。这样一来,就可以通过部首、笔顺、拼音三者相结合的方式来快速准确的到所需的字。这种检字方法的优点是
用户不需要认识这个字,输入法能够比较准确的缩小字范围,使检字变得更加快捷。
4.3.3拼音检字
拼音检字的使用方法比较简单,用户只需要输入汉字的拼音,然后通过选择拼音对应的简单机械练习题

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。