第20卷第2期晋中师范高等专科学校学报Vol.20No.2 2003年6月Journal of Jinzhong T eachers College Jun.2003
浅析汉字编码的标准
傅小丽
(晋中师范高等专科学校,山西晋中030600)
摘要:分析汉字编码标准的意义及作用,同时对输入汉字时的一些技巧作简要介绍。
关键词:字符编码;标准;国标码
中图分类号:H127文献标识码:B文章编号:1009-7058(2003)02-0125-02
一、制定汉字编码标准的必要性
在计算机中,任何一个字符信息(如英文字母、数字符号、标点符号、汉字等)都是用一个二进制数表示的,而且必须是一一对应的、有序而便于检索的。在一个汉字处理系统中,汉字使用哪些字符,对这些字符如何表示、处理、存储、传输都有相应的编码。如果不同的汉字处理系统,字符集不同,编码方式也不
完全相同,那么在一个系统下编辑的文字一般就不能直接在另一个系统中处理。假使能转换,也会因字符集不同使很多字符无法表示,很多文件不能交流。例如:在大陆使用的是简体中文字,而台湾则使用的是繁体中文字,如果使用的系统只能处理其中一种就会出现上述问题。
另外,汉字数目繁多,仅常用的就有5000多个,因此不能只用一个键完成汉字的输入。输入汉字时,需使用汉字的输入码,即用几个键位组合来实现汉字的输入。这种输入码只有和某一汉字处理系统中所能表示的汉字对应起来,才能将输入的汉字转换为机器所能表示的汉字,计算机方可进行处理。由此可以看出,同一种汉字输入法,对于使用不同字符集的汉字处理系统,必然导致使用时不能准确输入,或者在同一系统下,对于使用不同字符集的输入法,也会导致使用时不能准确输入。不仅汉字的输入如此,汉字的输出是通过将汉字的机内码转换为汉字的字形码再输出,因此也存在同样的问题。
要解决上述问题,最有效的办法,就是制定统一标准,即制定汉字编码标准。
二、常用汉字编码标准
(一)GB、GBFT及GB2312-80、GB12345-90
GB是/国标0两字汉语拼音的简写,表示汉字内码的国家标准。它是根据国家汉字信息编码交换字符集标准制定的编码方案,分为基本集和辅助集。
5信息交换用汉字编码字符集)))基本集6和5信息交换用汉字编码字符集)))辅助集6分别制定于1980年和1990年,相应的国家标准代号为GB2312-80和GB12345-90。GB2312-80中规定了信息交换用的6763个汉字和682个非汉字图形符号的代码。6763个汉字按其使用频度、组词能力及用途大小,分成一级常用汉字3755个和二级常用汉字3008个。
GB12345-90标准是为方便简繁体汉字的信息转换与交流,GB码又推出的繁体标准,所以又常称为GBFT(国标繁体)。
GB12345-90包含了717个图形符号和6866个汉字。除了新增加的35个图形符号和103个多对一的汉字外,其图形符号均等同于GB2312-80中的图形符号,汉字均是GB2312-80中简化汉字的繁体形式,其内码范围与GB2312-80相同。
这是我国最早的汉字编码方案,随着社会的发展该标准所包含的字符已不能满足需求,但后来的
[收稿日期]2002-10-15
[作者简介]傅小丽(1959-)女,山西河津人,晋中师范高等专科学校公共计算机部,副教授。
125
傅小丽浅析汉字编码的标准
新标准中所包含的字符都是在此标准的基础上发展的。
五笔字型输入法86版所使用的字符集符合该标准。
(二)CJK及GB13000.1
C、J、K即中、日、韩文字英文的简称。5CJK统一汉字编码字符集6即国家标准GB13000.1,它的字符集完全等同于国际标准5通用多八位编码字符集(UPS)6[这是国际标准化组织(ISO)1993年正式颁布的一项重要国际标准。该标准汇集全世界已规范的文种文字(包括中国文字)以多八位(octet)形式实施统一编码,形成一个统一字符集,供计算机处理多文种信息使用]。GB13000.1字符集中最重要的且经常采用的是其双字节形式的基本多文种平面。在它的65536个码位空间中,定义了几乎所有国家和地区的语言文字和符号。GB13000.1是GB2312-80、GB12345-90及Big5等字符集的超集。
(三)GBK
汉字内码扩展规范,简称GBK。其中/GB0是国家标准,/K0是/扩展0一词汉语拼音的第一个字母,是我国于1995年12月颁布的国家标准。该标准基本上采用了原来GB2312-80所有的汉字及码位,在字汇一级支持ISO10646.1及国家标准GB13000.1的全部CJK汉字,其非汉字符号同时涵盖了大部分常用的Big5非汉字符号,总共收录了883个符号、21003个汉字,并提供了1894个造字码位。由于GBK的编码在与GB23
12-80的兼容部分采用了完全相同的码序与字样,所以市面上所有合乎GB2312-80的文件、档案及程序都可以在合乎GBK规范的系统上正常运行。目前M-i crosoft简体中文版Window s就是以GBK为内码。又由于GBK同时也涵盖了U nicode所有CJK汉字,所以也可以和Unicode做一一对应。
中文Windows98就是以GBK作为字符集的。全拼输入法5.0版也是以该标准为字符集的,同时兼容GB2312的字符集,因此当我们打开全拼输入法设置对话框时,就会看到搜索字符集选项以选择不同的字符集。
如果我们用五笔字型输入法86版不能输入一些汉字时,可使用全拼输入法5.0实现。
(四)GB18030-2000
GB18030-2000编码标准全称为5信息交换用汉字编码字符集基本集的扩充6,是由信息产业部和国家质量技术监督局在2000年6月17日联合发布的,并作为一项国家标准在2001年9月1日后正式执行。
在字汇一级,该标准收录的字符分别以单字节、双字节和四字节编码。单字节部分收录了GB11383的单字节全部128个字符及单字节编码的欧元符号;双字节部分收录了GB13000.1的全部CJK统一汉字字符、CJK兼容区挑出来的21个汉字、GB13000.1中收录而GB2312中未收录的我国台湾地区使用的图形字符139个及其它字符31个、GB2312中的非汉字符号、GB12345的竖排标点符号19个、GB2312未收录
的10个小写罗马数字、GB2312未收录的带音调的汉语拼音字母5个及 和g、汉字数字/o0、表意文字描述符13个、增补汉字和部首/构件80个、双字节编码的欧元符号;四字节部分收录了除上述双字节字符之外的包括CJK统一汉字扩充A在内的GB13000.1中的全部字符。该标准为解决人名、地名用字提供了方案,为汉字研究、古籍整理等领域提供统一的信息平台基础。
GB18030-2000与现有的绝大多数操作系统、中文平台在计算机内码一级兼容,能够支持现有的应用系统,较好地解决了旧系统向新系统转换的问题,采用GB18030是我国目前较好的选择,而GB13000.1更适用于未来国际间的信息交换。
GBK在2001年9月1日后已结束其使命,取而代之的是GB18030-2000。
目前,王码WB-18030软件可以输入国家强制性标准GB18030-2000大字集27533个汉字,包括国家标准的6763个汉字,港台地区的13053个繁体字和3000个香港字,以及大字符集CJK的中、日、韩三国20902个汉字。全球电子传播(E-Me-dia)解决方案的领先供应商北大方正电子有限公司开发的方正GB18030字库和方正超大字库已正式通过由国家新闻出版署、国家语委和全国印刷字体工作委员会联合主持的国家级审定。
[参考文献]
[1]林宁.关于GB18030汉字编码标准集[EB/OL].ea stday.
c n/epublis h/gb/paper148/20011105/cl ass014800008/hwz52935.htm汉字编码
126
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论