Python数据分析补充:数据的读取(文本、Excel、数据库)--慧智精品网

Python数据分析补充：数据的读取（⽂本、Excel、数据库）

⼀、⽂本⽂件读取

对于csv或txt⽂本⽂件，可以使⽤pandas模块中的read_table函数或者read_csv函数，它们的功能相同，区别在于各⾃函数中sep参数（即⽤于指定变量之间的分隔符）默认值不同，具体的参数如下所⽰：

read_tabel(filepath_or_buffer,sep='\t',header='infer',names=None,index_col=None,usecols=None,

dtype=None,converters=None,skiprows=None,skipfooter=None,nrows=None,na_values=None,

skip_blank_lines=True,parse_dates=False,thousand=None,comment=None,encoding=None)

具体的参数含义如下：

filepath_or_buffer：指定txt⽂件或csv⽂件所在的具体路径，除此还可以指定存储数据的⽹站链接。

sep：指定原数据集中各变量之间的分隔符，默认为tab制表符。

header：是否需要将原数据集中的第⼀⾏作为表头，默认是需要的，并将第⼀⾏⽤作变量名称；如果原始数据中没有表头，该参数需要设置为None。

names：如果原数据集中没有变量名称，可以通过该参数在数据读取时给数据框添加具体的变量名称。

index_col：指定原数据集中的某些列作为数据框的⾏索引（标签）。

usecols：指定需要读取原数据集中的哪些变量名。

dtype：读取数据时，可以为原数据集的每个变量设置不同的数据类型。

converters：通过字典格式，为数据集中的某些变量设置转换函数。

skiprows：数据读取时，指定需要跳过原数据集的起始⾏数。

skipfootes：数据读取时，指定需要跳过原数据集的末尾⾏数。

赫拉气垫粉底nrows：指定数据读取的⾏数。川剧变脸揭秘

na_values：指定原数据集中哪些特征的值作为缺失值（默认将两个分隔符之间的空值作为缺失值）。

skip_blank_lines：读取数据时是否需要跳过原数据集中的空⽩⾏，默认为True。

parse_dates：如果参数值为True，则尝试解析数据框的⾏索引；如果参数为列表，则尝试解析对应的⽇期列；如果参数为嵌套列表，则将某些列合并为⽇期列；如果参数为字典，则解析对应的列（即字典中的值），并⽣成新的变量名（即字典中的键）。

thousands：指定原始数据集中的千分位符。

comment：指定注释符，在读取数据时，如果碰到⾏⾸指定的注释符，则跳过该⾏。

encoding：为防⽌中⽂的乱码，可以借助于该参数解决问题（通常设定为“utf-8”或“gbk”）。

我们也可以使⽤read_csv函数读取⽂本⽂件的数据，其参数与read_table函数完全⼀致，所不同的只是read_table函数在sep参数上的默认值是tab制表符，⽽read_csv函数在该参数上的默认值为英⽂状态下的逗号“,”。

为便于理解，如下图的txt⽂件，我们要讲其导⼊。

import pandas as pd

data = pd.read_table(filepath_or_buffer=r'C:\Users\lin-a\Desktop\【数据分析从⼊门到进阶】配套数据\第5章\',#指定⽂件路径

sep=',',# 指定分隔符

header=None,# 不需要将原始数据中的第⼀⾏作为表头

names=['id','name','gender','occupation'],# 重新命名列索引名称

skiprows=2,# 跳过起始两⾏的数据

skipfooter=2,# 跳过末尾两⾏的数据

comment='#',# 不读取“#”开头的数据⾏

converters={'id':str}# 对⼯号转换数据类型，保留开头的00

)

data

C:\Users\lin-a\anaconda3\lib\site-packages\ipykernel_launcher.py:10: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not s upport skipfooter; you can avoid this warning by specifying engine='python'.

# Remove the CWD from sys.path while we load stuff.

id name gender occupation 000446张敏⼥前端⼯程师

100483李琴⼥Java开发⼯程师cf雷神图片

200552赵东来男数据分析师

300589丁顺昌男数据分析师

由于以上代码运⾏后有异常提⽰，在代码最后加上⼀⾏“engine=‘python’”即可解决问题。

import pandas as pd给老婆买礼物

data = pd.read_table(filepath_or_buffer=r'C:\Users\lin-a\Desktop\【数据分析从⼊门到进阶】配套数据\第5章\',#指定⽂件路径

sep=',',# 指定分隔符

header=None,# 不需要将原始数据中的第⼀⾏作为表头

names=['id','name','gender','occupation'],# 重新命名列索引名称

skiprows=2,# 跳过起始两⾏的数据

skipfooter=2,# 跳过末尾两⾏的数据

comment='#',# 不读取“#”开头的数据⾏

山西省

converters={'id':str},# 对⼯号转换数据类型，保留开头的00

engine='python'

)

data

id name gender occupation 000446张敏⼥前端⼯程师

100483李琴⼥Java开发⼯程师

200552赵东来男数据分析师

300589丁顺昌男数据分析师

代码运⾏结果显⽰，成功将txt⽂件内的数据读取到，⽽且为数据新增了变量名称。对于id变量⽽⾔，00开头的编号保持了原样。需要注意的是：

names参数的多个值是通过列表实现的；

converters参数的值则是通过字典实现的。

⼆、电⼦表格的读取

电⼦表格xlsx或xls⽂件的读取，可以使⽤read_excel函数：

read_excel(io,sheetname=0,header=0,skiprows=None,skip_footer=0,

index_col=None,names=None,parse_dates=False,na_values=None,

thousands=None,convert_float=True,converters=None)

各个参数的含义如下所⽰：

io：指定电⼦表格的具体路径。

sheetname：指定需要读取excel中的第⼏个Sheet，可以传递整数也可以传递具体的Sheet名称。

header：是否需要将数据集的第⼀⾏⽤作表头，默认为是需要的。

数据库恢复skiprows：读取数据时，指定需要跳过原数据集的起始⾏数。

skip_footer：读取数据时，指定需要跳过的原始数据集的末尾⾏数。

index_col：指定哪些列⽤作数据框的⾏索引（标签）。

names：如果原数据中没有变量，可以通过该参数在数据读取时给数据添加具体的表头。

parse_cols：如果参数值为True，则尝试解析数据框的⾏索引；如果参数为列表，则尝试解析对应的⽇期列；如果参数为嵌套列表，则将某些列合并为⽇期列；如果参数为字典，则解析对应的列（即字典中的值），并⽣成新的变量名（即字典中的键）。

parse_dates：该参数在函数内不再⽣效。

na_value：指定原始数据中哪些特殊值代表了缺失值。

thousands：指定原始数据集中的千分位符。

convert_float：默认将所有的数值型变量转换为浮点数。

converters：通过字典格式，为数据集中的某些变量设置转换函数。

我们需要导⼊如下所⽰的Excel⽂件：

这个数据是商品的⼊库信息，存在⼀些问题：

1. 表格没有表头，读取数据时需要考虑添加表头；

2. 第⼀列为商品编号，某些商品是以0开头的，如何避免数据读⼊后0消失；

3. 最后⼀列有⼀个值是未知，如何读⼊数据时指定这样的数据为缺失值。

import pandas as pd

data2 = pd.read_excel(io=r'C:\Users\lin-a\Desktop\【数据分析从⼊门到进阶】配套数据\第5章\datas\data2.xlsx',

header=None,

names=['id','date','prod_name','price','color'],

converters={'id':str},# 字典中的键可为我们命名的列索引“id”，也可以为默认索引“0”

na_values='未知'# 将原始数据中的“未知”值转换成缺失值

)

data2

id date prod_name price color 000231462016-03-18连⾐裙237⽩⾊113445272017-06-12⽜仔裤368蓝⾊202236852018-02-10⽪鞋589NaN 300372492017-07-17⼨衫299⽩⾊403682412016-03-23板鞋

299蓝⾊511278822018-09-17西装1599⿊⾊

三、数据库数据的读取

在实际⼯作中，数据通常是存储在数据库中，如SQL Server数据库、MySQL数据库及Oracel数据库等。在使⽤Python进⾏数据分析和挖掘时，依然可以使⽤Pandas模块，所不同的是需要和其他模块搭配使⽤：

读⼊SQL Server数据库的数据要使⽤pymssql模块；

读⼊MySQL数据库的数据要使⽤Pymysql模块。

以SQL Server和MySQL数据库为例，在Jupyter输⼊“! pip install pymssql”和“! pip install pymysql”完成pymssql和pymysql模块的导⼊，然后基于两个模块各⾃的connect函数构建数据库与Python之间的桥梁。最后在搭建好连接的基础上，使⽤Pandas模块中的read_sql函数实现数据库数据的读取。

1. connect函数

（1）t函数

以上参数的含义如下所⽰：

server：指定需要访问的SQL Server服务器，如果是本地数据库，则指定“localhost”，如果是远程服务器，则指定具体的IP地址；

user：指定访问SQL Server数据库的⽤户名；

password：指定访问SQL Server数据库的密码；

database：指定访问SQL Server数据库的具体库名；

charset：指定读取SQL Server数据库的字符集（为了防⽌乱码），如果数据库表中含有中⽂，⼀般可以尝试将该参数设置为“utf-8”或“gbk”。

（2）t函数

以上参数的含义如下所⽰：

host：指定需要访问的MySQL服务器，如果是蹦迪数据库，则指定“localhost”，如果远程服务器，则

指定具体的IP地址；

user：指定访问MySQL数据库的⽤户名；

password：指定访问MySQL数据库的密码；

database：指定访问MySQL数据库的具体库名；

port：指定访问MySQL数据库的端⼝号；

charset：指定读取MySQL数据库的字符集（为了防⽌乱码），如果数据库表中含有中⽂，⼀般可以尝试将该参数设置为“utf-8”或“gbk”。

2. read函数

以上参数的含义如下：

sql：指定⼀段字符型的SQL查询代码，⽤于说明数据的读取逻辑；

con：指定数据库与Python之间的链接桥梁；

index_col：指定哪些字段⽤作数据的索引；

coerce_float：bool类型的值，⽤于判断是否将⾮字符的变量强制转换为浮点型，默认为True;

parse_dates：指定哪些字段需要做⽇期类型的转换；

columns：指定数据中哪些字段需要读⼊到Python环境中。

慧智精品网

Python数据分析补充:数据的读取(文本、Excel、数据库)

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

山西汉代政治,文化名人及作品

唐装的起源和历史演变

中国古代史阶段特征

中国历史上的汉朝文化发展

[汉代历史简介]汉代历史故事

历史汉代全部知识点总结

汉代经济发展对中国经济史的影响

汉代的文学体裁

汉源名字来历

简述汉代艺术的基本特征和美学风格

汉代文学的风格和特征

汉代陶瓷知识点归纳总结

汉代经济发展与中外贸易

中国古代史完整版

汉代的科学技术与数学发展

汉代的录囚名词解释

汉代对中国文化的影响-概述说明以及解释

汉代的思想大一统知识点

汉学与宋学的名词解释

汉唐文化交融研究

最新文章

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

互动训练B—《汉武帝巩固大一统王朝》

汉代耧车的历史价值

红星照耀中国汉代青铜读书笔记

湖南马王堆汉墓的发掘与研究

标签列表