信息时代汉字的标准化和共通化
冯志伟
汉字效用递减律
7000通用汉字覆盖率和不足率
•汉字数增加字数覆盖率不足率1000 90% 10%
2400 1400 99% 1%
3800 1400 99.9% 0.1%
5200 1400 99.99% 0.01%
6600 1400 99.999% 0.001%•从中可以看出,1000个汉字的覆盖率为90%,
以后每增加1400字,覆盖率百分比的最后一个
9字之后便增加一个9字。覆盖率达到99.999%
汉字编码的6600个汉字,就构成了现代通用汉字的主体,覆盖率达到99.9%的3800个汉字,就包含了全
部现代常用汉字。
•随着汉字频度的减少,其效用递减。
四种汉字代码
•汉字输入码:为了将汉字输入计算机而编制的代码。
•汉字内部码:计算机内部处理汉字信息时所采用的代码,其形式取决于机器本身。为了提高机器处理汉字效率,汉字内部码一般采用机器原有的代码结构,码长都尽可能短,而且等长。许多汉字计算机,在输入汉字之后都要进行一次将汉字输入码变成汉字内部码的转换。
•汉字输出码:计算机将汉字信息处理的结果输出打印或显示时所用的代码,一般也取决于具体的机器或设备。
•汉字交换码:用于计算机之间汉字信息交换的代码。它处于一台计算机的出口与另一台计算机的入口之间。除了保证一字一码之外,还要与有关的国际标准和国家标准保持一致。
一台具体的计算机的交换码可以和输入码、内部码、输出码一致,也可以不一致,这同样取决于汉字信息处理系统设计与应用的具体情况。但是,在一般情况下,一台计算机的输入码、内部码和输出码是随着计算机的不同而不同的,而交换码就必须整齐统一,才便于与其它的计算机进行信息交换。
《信息交换用汉字编码字符集-基
本集》(GB2312-80)
•汉字标准交换码共分两级。第一级为常用字,有3755字,按汉语拼音字母顺序排列,第二级为次常用字,有3008字,按部首排列。•字体以中国文字改革委员会1964年编印的《简化汉字总表》以及中华人民共和国文化部和中国文字改革委员会联合发布的《第一批异体字整理表》为准。
•字形以中华人民共和国文化部和中国文字改革委员会1965年联合发布的《印刷通用汉字字形表》为准。
•除汉字之外,该标准还收集了一般符号202个(其中包括间隔、标点符号、运算符号、单位符号、制表符号等),序号60个,数字22个,拉丁字母52个(包括大小写),日文假名169个(包括大小写),汉语拼音符号26个,汉字注音符号37个,连同汉字一起,共有7445个图形符号。这个代码表最多可收8836个图形字符,现在尚留有一些空白位置,供进一步扩充之用。
繁体字和简体字对应编码
•六个字符集
–基本集(GB 2312-80)
–第一辅助集(GB 12345-90)
–第二辅助集(GB 7589-87,收简体字7237个)
–第三辅助集(GB/T 13131-91)
–第四辅助集(GB 7590-87,收简体字7039个)
–第五辅助集(GB/T 13132-91)。
•基本集和第二、第四辅助集是简体字集,第一、第三、第五辅助集是繁体字集。
•在这六个字符集中,简体字与繁体字存在着明确的一一对应关系:基本集中的简体字与第一辅助集中的繁体字对应,第二辅助集中的简体字与第三辅助集中的繁体字对应,第四辅助集中的简体字与第五辅助集中的繁体字对应,并且对应的简体字和繁体字在相应的字符集中同码。个别的汉字在简繁体之间存在着一对多的关系,作为特殊情况处理。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论