如何获取常用汉字(GB2312)--慧智精品网

如何获取常⽤汉字（GB2312）

听说常⽤汉字有3000多个，怎么获取呢？其实常⽤汉字已经有⼈替我们整理好了，就是字符集GB2312，是我国1980年发布的，共有6763个汉字，分为⼀级汉字和⼆级汉字，⼀级汉字采⽤拼⾳排序，⼆级汉字采⽤部⾸排序，⼀级汉字就是这⾥说的常⽤汉字。所以我们只要⽤⼀个合适的⼯具去获取它就⾏了。这⾥我们⽤Python。

存的部首废活少说，直接上代码：

import json # 导⼊json库⽤于把列表保存成.json格式

characters =[]# 创建⼀个列表⽤于保存汉字字符

for i in range(176,216):

s =bytes([i])

for x in range(161,255):

s +=bytes([x])

try:

c = s.decode("gb2312")

except:

break

characters.append(c)

print(c, end="\t")# 打印结果

s =bytes([i])

print(len(characters))# 打印结果数量

filename ="common_chinese_characters.json"

with open(filename,"w", encoding="utf-8")as f:

json.dump(characters, f, ensure_ascii=False)

说明：bytes.decode(编码类型)⽤于解码，把字节类型转换为字符类型，编码类型为指定的字符集；de(编码类型)⽤于编码，把字符类型转换为字节类型，编码类型为指定的字符集。⼆者互为反向操作。

举个例⼦：

>>> c ='Python⼤法好'.encode('utf-8')# utf-8也是⼀种字符集，⼏乎⽀持世界上的所有语⾔。

>>> s = c.decode('gb2312')# 这样会出问题，要么出错要么乱码。因为utf-8和gb2312的定义不同。

>>> s = c.decode('utf-8')# 这样就没问题了。

>>>print(s)# 可以看到输出结果是 "Python⼤法好"，和之前定义的⼀样。

这⾥有必要讲⼀下GB2312的定义：GB2312定义的字符由两位字节构成，⾼位字节和低位字节。⼀级汉字的编码范围

是0xb0a1~0xd7f9(16进制)或者45217~55289(10进制)。可以百度⾃⼰研究，此处不多说。

代码原理很简单，就是利⽤for循环去遍历GB2312字符集定义的⼀级汉字。其中第⼀个for循环⽤于遍

历⾼位字节，第⼆个嵌套在第⼀个for循环⾥的for循环⽤于遍历低位字节。变量s⽤于存储字符类型的汉字编码成字节类型，变量c即为转换成字符类型的汉

字。pt...结构⽤于防⽌最后⼏位汉字出错，因为最后⼀个汉字的字节类型表⽰是b'\xd7\xf9'，所以会出错，⽽⼀旦出错就意味着已经结束了。

bytes([i])的[i]并不是表⽰列表索引。整个语句的意思是把整数类型变量i替换成字节类型的⼗六进制形式并保存到变量s。可以⾃⼰在交互环境中试⼀试。

open()中的encoding⽤于指定保存的编码，ensure_ascii=False是必须的，⽤于指定要保存成字符类型，因为中⽂不在ascii编码中，如果没有这句话，输出的json⽂件看起来会是这样：

["\u554a", "\u963f", "\u57c3", "\u6328", "\u54ce",…

慧智精品网

如何获取常用汉字(GB2312)

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

慧智精品网

如何获取常用汉字(GB2312)

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记 汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版 七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

少年读史记汉帝国风云录概括300字

人教版七年级中国历史新增文物