网页编码之GB2312、GBK与UTF-8的区别
⽹页编码之GB2312、GBK与UTF-8的区别
⾸先,我们要明⽩,GB2312、GBK和UTF-8都是⼀种字符编码,除此之外,还有好多字符编码。只是对于我们中国⼈的⽹站来说,⽤这三种编码⽐较多。简单的说⼀下,为什么要⽤编码,在计算机内,储存⽂本信息⽤ASC II码,每⼀个字符对应着唯⼀的ASCII码。最初计算机是由美国发明的,他们也⽤的是键盘和上⾯的字母,所以他们的字符ASCII好解决。但是我们中国的就不同了,每个汉字要对应唯⼀的ASCII码。这样,就出来了国家制定的字符编码标准:GB2312、GBK等。其他国家,其他语⾔也有他们对应的编码标准。 GB 就是国标的意思,GB2312和GBK主要⽤于汉字的编码,⽽UTF-8是全世界通⽤的。意思就是说,如果你的⽹页主要⾯对使⽤汉语的中国⼈的话,使⽤ GB2312和GBK⾮常好,⽂字储存体积要⼩,有⼀些优点。如果你的⽹页要⾯向世界的话,你再⽤GB2312和GBK作为⽹页编码的话,有些电脑上的浏览器没有这种编码,你的⽹页汉字内容就会变成⽆法识别的乱码。它们通常⽤在⽹页的meta标签内,例如:,表⽰这个页⾯使⽤的是GB2312编码。这个信息是给浏览器看的,浏览器会优先考虑使⽤从⽹页头部提取出来的编码信息对⽹页进⾏解码。当然,我们也可以强制浏览器使⽤某种编码解释⽹页,这样我们就看到了传说中的乱码。
GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换:
GBK、GB2312--Unicode--UTF8
UTF8--Unicode--GBK、GB2312
对于⼀个⽹站、论坛来说,如果英⽂字符较多,则建议使⽤UTF-8节省空间。不过现在很多论坛的插件⼀般只⽀持GBK。
如果是中⽂的⽹站推荐GB2312 GBK有时还是有点问题为了避免所有乱码问题,应该采⽤UTF-8,将来要⽀持国际化也⾮常⽅便 UTF-8可以看作是⼤字符集,它包含了⼤部分⽂字的编码。
使⽤UTF-8的⼀个好处是其他地区的⽤户(如⾹港台湾)⽆需安装简体中⽂⽀持就能正常观看你的⽂字*⽽不会出现乱码。*
gb2312是简体中⽂的码
gbk⽀持简体中⽂及繁体中⽂
big5⽀持繁体中⽂
utf-8⽀持⼏乎所有字符
中国⼤陆最常⽤的就是GBK18030编码,除此之外还有GBK,GB2312,这⼏个编码的关系是这样的。
最早制定的汉字编码是GB2312,包括6763个汉字和682个其它符号 95年重新修订了编码,命名GBK1.0,共收录了21886个符号。之后⼜推出了GBK18030编码,共收录了27484个汉字,同时还收录了藏⽂、蒙⽂、维吾尔⽂等主要的少数民族⽂字,现在WINDOWS平台必需要⽀持GBK18030编码。
GB2312编码⼤约包含6000多汉字(不包括特殊字符),编码范围为第⼀位b0-f7,第⼆位编码范围为a1-fe(第⼀位为cf时,第⼆位为a1-d3),计算⼀下汉字个数为6762个汉字。当然还有其他的字符。包括控制键和其他字符⼤约7573个字符编码 gbk编码是对G B2312编码的扩充,容纳的汉字更多,但仅仅是扩充,没有质的变化。保留了所有G B2312编码,在此基础上进⾏编码范围的扩充.容纳(包含特殊字符)共22014个字符编码. gb18030编码是在gbk编码基础上的扩充,因为汉字更多,仅仅使⽤两位编码已经不能容纳要求的汉字,所以采⽤了2\4位混和的办法,可以⽀持更多的汉字编码。并且保留了原有的gbk 2字节编码兼容G B2312和gbk编码的⽂件。⼤概容纳55657个编码(包含特殊字符) unicode编码(也就是UTF编码):俗称万国码,致⼒于使⽤统⼀的编码准则表达各国的⽂字。为表达更多的⽂字,utf-8采⽤2/3混编的⽅式。⽬前容纳的汉字范围⼩于gbk编码。并且以 3字节的⽅式处理中⽂,带来了兼容性的问题,原有的gbk,G B2312,gb18030编码⽂件都不能正常的处理,还有很长的路要⾛。gbk和gb2312的区别有哪些
⾸先⼤家要了解什么是gbk?什么是gb2312?我们要知道他们都是⼀种字符编码,当然字符编码还有很多种。
⽽字符编码我们可以这样理解:
在计算机中存放的都是0和1的⼆进制值。
8个位对应⼀个字节,常⽤16进制来表⽰。
那么我们如果想要在计算机上看到我们想要的字符显⽰,⽽不是各种0和1的数字该怎么实现呢?
这⾥我们就需要使计算机把其所存储的对应的16进制的数值,转化为对应的字符,包括英⽂和中⽂等其他语⾔的字符,然后输出到屏幕上。
所以编码也就是,定义了⼀套规则,去指定哪些数值,对应着哪些字符。
那么字符编码,就是定义了⼀套规则,指定了计算机中存放的这么多值中的哪个值,对应了电脑屏幕显⽰出来的哪个字母。
综上所述,⼤家应该都能理解GBK和GB2312是⼀种字符编码了吧。
下⾯我们再具体说说他们的区别与相同点:
相同点:
1、GBK和GB2312 都是16位的!
2、它们通常⽤在⽹页的meta标签内。
汉字编码
不同点:
1、GBK字符编码⽀持简体中⽂和繁体中⽂!
GBK全称《汉字内码扩展规范》(GBK即“国标”、“扩展”汉语拼⾳的第⼀个字母,英⽂名称:Chinese Internal Code Specification),中华⼈民共和国全国信息技术标准化技术委员会1995年12⽉1⽇制订,国家技术监督局标准化司、电⼦⼯业部科技与质量监督司1995年12⽉15⽇联合以技监标函1995 229号⽂件的形式,将它确定为技术规范指导性⽂件。
2、GB2312只⽀持简体中⽂!
《信息交换⽤汉字编码字符集》是由中国国家标准总局1980年发布,1981年5⽉1⽇开始实施的⼀套国家标准,标准号是GB 2312—1980。
GB 2312标准共收录6763个汉字,其中⼀级汉字3755个,⼆级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、⽇⽂平假名及⽚假名字母、俄语西⾥尔字母在内的682个全⾓字符。
如果你的⽹页主要⾯对使⽤汉语的中国⼈的话,使⽤ GB2312和GBK⾮常好,⽂字储存体积要⼩,有⼀些优点。如果你的⽹页要⾯向世界的话,你再⽤GB2312和GBK作为⽹页编码的话,有些电脑上的浏览器没有这种编码,你的⽹页汉字内容就会变成⽆法识别的乱码。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。