gb2312 解析少见字
汉字编码GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。
GB2312编码范围:A1A1 - FEFE,其中汉字编码范围:BOA1-F7FE。
GB2312编码是第一个汉字编码国家标准,由中国国家标准总局1980年发布,1981年5月1日开始使用。GB2312编码共收录汉字6763个,其中一级汉字3755个,二级汉字3008个。同时,GB2312编码收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
分区表示
GB2312编码对所收录字符进行了"分区"处理,共94个区,每区含有94个位,共8836个码位。这种表示方式也称为区位码。
01-09区收录除汉字外的682个字符。
10-15区为空白区,没有使用。
16-55区收录3755个一级汉字,按拼音排序。
56-87区收录3008个二级汉字,按部首/笔画排序。
88-94区为空白区,没有使用。
举例来说,"啊"字是GB2312编码中的第一个汉字,它位于16区的01位,所以它的区位码就是1601。
双字节编码
GB2312规定对收录的每个字符采用两个字节表示,第一个字节为“高字节”,对应94个区;第二个字节为"低字节”,对应94个位。所以它的区位码范围是:0101 - 9494。区号和位号分别加上OxAO就是GB2312编码。例如最后一个码位是9494,区号和位号分别转换成十六进制是5E5E,Ox5E+OxA0=OxFE,所以该码位的GB2312编码是FEFE。
GB2312编码范围:A1A1-FEFE,其中汉字的编码范围为BOA1-F7FE,第一字节0xBO-0xF7(
对应区号:16- 87),第二个字节OxA1-OxFE(对应位号:01 -94)。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论