文本编码格式转换及文本内容类型的介绍
湿婆教⽂本编码格式转换及⽂本内容类型的介绍
⽂本⽂件的编码⽅式及内容类型是应⽤层测试中⽂本测试关注的重点,常见的⽂本编码⽅式为UTF -8、GBK2312、GBK、BIG5、
GB18030等等,常见的⽂本内容类型为TXT、HTML、XML、Torrent、WML、XHTML等。
下⾯详细介绍下⽂件编码格式的转变及部分⽂本内容的格式。
1、TXT⽂件:⼤家都⾮常熟悉,重点讲解下编码格式的转换。
第⼀步:先熟悉⼀个linux命令;
在linux系统下,使⽤iconv命令进⾏编码格式的转换,具体的命令使⽤⽅式如下:
[root@localhost xhtml]# iconv --help
⽤法: iconv [选项...] [⽂件...]
转换给定⽂件的编码。
输⼊/输出格式规范:
-f, --from-code=名称    原始⽂本编码
-t, --to-code=名称        输出编码
看的偏旁部首信息:
-l, --list                列举所有已知的字符集
输出控制:
-c                        从输出中忽略⽆效的字符
-o, --output=FILE          输出⽂件
-s, --silent              关闭警告
--verbose              打印进度信息
-?, --help                给出该系统求助列表
--usage                给出简要的⽤法信息
-
冰释前嫌的意思V, --version              打印程序版本号
长选项的强制或可选参数对对应的短选项也是强制或可选的。
命令操作举例如下:iconv -f UTF-8 -t GB2312 ⽂本 -o ⽂本
第⼆步,进⾏⽂本编码转换;
在转换之前,⼀定先准备⼀个UTF8编码格式的TXT⽂件,这个⾮常简单,linux系统⼀般默认的都是UFT8格式编码的⽂件,可以使⽤file -i ⽂件名的命令去查看,
如下所⽰:
[root@localhost txt]# file -i ⽂本
⽂本: text/plain; charset=utf-8
由于UTF8是⼀个汉字占⽤三个字节,⽽Big5、GBK、GB2312等基本上都是⼀个汉字占⽤两个字节,所以在编码格式转换的过程中,使⽤UTF8转换为GB2312之后,尽量⽤GB2312来转换
GBK、Big5等;直接⽤UTF8转换的话个别编码格式会报错。
备注:请记住⽂件⾥最好有中⽂汉字,如果没有的话,⽂本的编码格式可能会显⽰是US-ASCII,增加中⽂汉字后即可以显⽰为utf-8编码格式。
第三步,编码转换后的格式验证:
转换编码格式后,查询⽂件验证结果如下所⽰:
⽂本:  text/plain; charset=iso-8859-1
⽂本: text/plain; charset=iso-8859-1
显⽰结果并⾮为对应的Big5和GB2312,这个可能是linux系统的file命令并未对我们常⽤的汉字编码进⾏识别,只要在编码转换的过程中不报错,
我们就认为转换成功了。
如果在此情况下还想验证最终的结果是否正确,还⼤家⼏个⽅法:
⽅法1、使⽤SSH客户端(建议是Xshell),在编码格式显⽰处修改为想要的格式,这样,我们打开转换后的⽂件就是正常显⽰的了。
⽅法2、使⽤逆向验证法,把转换后的GB2312再次转换为UTF8编码的格式⽂件,查看⽂件内容(客户端是UTF8编码显⽰),如果没有乱码或者其它异常,我们就认为⽂件转换成功。
⽅法3、可以使⽤od -x 加⽂件名的⽅式查看对应⽂件的16进制结果,如果没有乱码或者其它异常,我们就认为⽂件转换成功。
2、HTML/MHT⽂件:这两种编码格式的转换基本上在浏览器上就可以完成,⼤家注意的是使⽤IE浏览器进⾏转换。
转换⽅法如下:点击浏览器,打开⽹页,点击“⼯具”,选择“⽂件”,点击“另存为”,选择编码格式和要保存的⽂件类型即可。
编码格式⽀持⾮常多,如常见的UTF8、GB2312、Big5等;⽂件类型⽀持html、mht、txt等;可以根据需要进⾏选择。
如果浏览器⾃带的编码格式有不满⾜要求的,可以把⽂件上传到linux系统中进⾏转换,linux系统⽀持的类型⾮常多,操作⽅法参照TXT⽂本编码转换。
为⽅便⼤家操作,截图如下:
编码格式:
⽂件格式:
3、XML/WML类似,语法上⾮常接近。实例如下:
⼤家可以⾃⾏编辑,也可以直接⽤
XML⽂件,⽰例如下:
<?xml version="1.0"?>
<spec_rule>
<rule>
<stat>0</stat>
<count>4000</count>
<service>10</service>
</rule>
/*
软件测试的艺术
*/
</spec_rule>
备注:其中加⼀⾏汉字最主要的⽬的是为了使⽤file命令查看⽂件的编码时显⽰是utf8。WML⽂件,⽰例如下:
<?xml version="1.0"?>
<wml>
<card>
<p align="center"><img alt=":)" src="xxx.bmp" localsrc="smileyface"/></p>
</card>
/*
软件测试的艺术
*/
</wml>
备注:其中加⼀⾏汉字最主要的⽬的是为了使⽤file命令查看⽂件的编码时显⽰是utf8。
花苗
其他编码格式的⽂件可以直接在linux系统中进⾏转换。操作⽅法参照TXT⽂本编码转换。
4、XHTML⽂件,其实XML和HTML⽂件的结合,编码上更加严格。
⽰例如下:
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>xhEditor初始化代码⽣成向导 for xhEditor 1.1.8</title>
<script type="text/javascript" src="jquery/jquery-1.4.2.min.js"></script>
<script type="text/javascript" src="xheditor-1.1.8-zh-cn.min.js"></script>
<script type="text/javascript">
$(pageInit);
function pageInit()
function toggleDisplay(id){$('#'+id).toggle(100);}鹄的读音
function updateAll()
</script>
</head>
<body>
<h1 class="top">xhEditor初始化代码⽣成向导 for xhEditor 1.1.8</h1>
<h2>1: 选择编辑器初始化模式</h2>纪律教育心得体会
<div class="section"><select id="editorMode"><option value="1" selected="selected">Class初始化</option><option value="2">Javascript初始化</option></select></div>
<h2>2: 更改初始化参数</h2>
</body>
</html>
5、Torrent则为BT下载种⼦,⽹络上很多,可以⾃⾏种⼦进⾏转换。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。