pythoncsv数据类型_pandas读取CSV文件时查看修改各列的数据类型格式--慧智精品网

pythoncsv数据类型_pandas读取CSV⽂件时查看修改各列的

数据类型格式

下⾯给⼤家介绍下pandas读取CSV⽂件时查看修改各列的数据类型格式，具体内容如下所述：

我们在调bug的时候会经常查看、修改pandas列数据的数据类型，今天就总结⼀下：

1.查看：

Numpy和Pandas的查看⽅式略有不同，⼀个是dtype,⼀个是dtypes

print(Array.dtype)

#输出int64

print(df.dtypes)

#输出Df下所有列的数据格式 a:int64,b:int64

2.修改

import pandas as pd

import numpy as np

df = pd.read_csv('000917.csv',encoding='gbk')

df = df[df['涨跌幅']!='None']

df['涨跌幅'] = df['涨跌幅'].astype(np.float64)

print(df[df['涨跌幅']>5])

ps：在Pandas中更改列的数据类型

先看⼀个⾮常简单的例⼦：

a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]

df = pd.DataFrame(a)

有什么⽅法可以将列转换为适当的类型？例如，上⾯的例⼦，如何将列2和3转为浮点数？有没有办法

将数据转换为DataFrame格式时指定类型？或者是创建DataFrame，然后通过某种⽅法更改每列的类型？理想情况下，希望以动态的⽅式做到这⼀点，因为可以有数百个列，明确指定哪些列是哪种类型太⿇烦。可以假定每列都包含相同类型的值。

解决⽅法

可以⽤的⽅法简单列举如下：

对于创建DataFrame的情形

如果要创建⼀个DataFrame，可以直接通过dtype参数指定类型：

df = pd.DataFrame(a, dtype='float') #⽰例1

df = pd.DataFrame(data=d, dtype=np.int8) #⽰例2

df = pd.read_csv("somefile.csv", dtype = {'column_name' : str})

对于单列或者Series

下⾯是⼀个字符串Seriess的例⼦，它的dtype为object：刷乳胶漆

>>> s = pd.Series(['1', '2', '4.7', 'pandas', '10'])

>>> s

0 1

杭州复读1 2

2 4.7

3 pandas

4 10

dtype: object

使⽤to_numeric转为数值。默认情况下，它不能处理字母型的字符串'pandas'：

>>> pd.to_numeric(s) # _numeric(s, errors='raise')

ValueError: Unable to parse string

八百彪兵奔北坡可以将⽆效值强制转换为NaN，如下所⽰：

>>> pd.to_numeric(s, errors='coerce')

0 1.0

1 2.0

2 4.7

3 NaN

嘻的拼音4 10.0

dtype: float64

如果遇到⽆效值，第三个选项就是忽略该操作：

>>> pd.to_numeric(s, errors='ignore')

# the original Series is returned untouched

对于多列或者整个DataFrame

如果想要将这个操作应⽤到多个列，依次处理每⼀列是⾮常繁琐的，所以可以使⽤DataFrame.apply处理每⼀列。对于某个DataFrame：

>>> a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]

>>> df = pd.DataFrame(a, columns=['col1','col2','col3'])

>>> df

col1 col2 col3

0 a 1.2 4.2

1 b 70 0.03

2 x 5 0

然后可以写：

df[['col2','col3']] = df[['col2','col3']]._numeric)

那么'col2'和'col3'根据需要具有float64类型。

但是，可能不知道哪些列可以可靠地转换为数字类型。在这种情况下，设置参数：

90平米装修预算

df._numeric, errors='ignore')

然后该函数将被应⽤于整个DataFrame，可以转换为数字类型的列将被转换，⽽不能(例如，它们包含⾮数字字符串或⽇期)的列将被单独保留。

另外pd.to_datetime和pd.to_timedelta可将数据转换为⽇期和时间戳。

软转换——类型⾃动推断

版本0.21.0引⼊了infer_objects()⽅法，⽤于将具有对象数据类型的DataFrame的列转换为更具体的类型。

例如，⽤两列对象类型创建⼀个DataFrame，其中⼀个保存整数，另⼀个保存整数的字符串：

>>> df = pd.DataFrame({'a': [7, 1, 5], 'b': ['3','2','1']}, dtype='object')

>>> df.dtypes

a object

b object

dtype: object

然后使⽤infer_objects()，可以将列'a'的类型更改为int64：

>>> df = df.infer_objects()

>>> df.dtypes

a int64

b object

dtype: object

由于'b'的值是字符串，⽽不是整数，因此'b'⼀直保留。

astype强制转换

如果试图强制将两列转换为整数类型，可以使⽤df.astype(int)。

⽰例如下：

a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]

df = pd.DataFrame(a, columns=['one', 'two', 'three'])

Out[16]:

one two three

0 a 1.2 4.2

1 b 70 0.03

2 x 5 0

df.dtypes

Out[17]:

旧车置换补贴one object

two object

three object

df[['two', 'three']] = df[['two', 'three']].astype(float)

df.dtypes

Out[19]:

one object

two float64

three float64

总结

以上所述是⼩编给⼤家介绍的pandas读取CSV⽂件时查看修改各列的数据类型格式，希望对⼤家有所帮助，如果有任何疑问欢迎给我留⾔，⼩编会及时回复⼤家的！

慧智精品网

pythoncsv数据类型_pandas读取CSV文件时查看修改各列的数据类型格式

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

汉唐时期的历史研究与考古探析

汉代河西邮驿的设置作用

中国汉代的宇宙观四个字

汉代婚礼礼仪知识有哪些

汉代选官制度的名称及其弊端

汉代风云人物易中天

简述汉代的文学成就

汉赋的历史背景与社会意义

汉代的文化特征

中国古代史阶段特征汇总

《汉古学概说》赏析

汉朝儒学思想演变

中国文化的汉唐时期

评价汉代的援礼入法

汉书读后感了解中国历史上汉代的经济文化等各方面发展和变革情况_百 ...

汉朝的文化特点

中国舞蹈史第3讲汉代舞蹈的发展

汉代宫廷文化和制度框架

哈佛中国史1早期中华帝国秦与汉

古代中国的秦汉文化发展

最新文章

【中国历史十五讲】读书说明与指导(吴树国)

红星照耀中国汉代青铜读后感

中国历史文化常识大全(最新整理200题)

《鸿门宴》背景、情节与教案探析

汉代文人诗的艺术成就

汉代刘向的作品

标签列表