pythoncsv数据类型_pandas读取CSV文件时查看修改各列的数据类型格式
pythoncsv数据类型_pandas读取CSV⽂件时查看修改各列的
数据类型格式
下⾯给⼤家介绍下pandas读取CSV⽂件时查看修改各列的数据类型格式,具体内容如下所述:
我们在调bug的时候会经常查看、修改pandas列数据的数据类型,今天就总结⼀下:
1.查看:
Numpy和Pandas的查看⽅式略有不同,⼀个是dtype,⼀个是dtypes
print(Array.dtype)
#输出int64
print(df.dtypes)
#输出Df下所有列的数据格式 a:int64,b:int64
2.修改
import pandas as pd
import numpy as np
df = pd.read_csv('000917.csv',encoding='gbk')
df = df[df['涨跌幅']!='None']
df['涨跌幅'] = df['涨跌幅'].astype(np.float64)
print(df[df['涨跌幅']>5])
ps:在Pandas中更改列的数据类型
先看⼀个⾮常简单的例⼦:
a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]
df = pd.DataFrame(a)
有什么⽅法可以将列转换为适当的类型?例如,上⾯的例⼦,如何将列2和3转为浮点数?有没有办法
将数据转换为DataFrame格式时指定类型?或者是创建DataFrame,然后通过某种⽅法更改每列的类型?理想情况下,希望以动态的⽅式做到这⼀点,因为可以有数百个列,明确指定哪些列是哪种类型太⿇烦。可以假定每列都包含相同类型的值。
解决⽅法
可以⽤的⽅法简单列举如下:
对于创建DataFrame的情形
如果要创建⼀个DataFrame,可以直接通过dtype参数指定类型:
df = pd.DataFrame(a, dtype='float') #⽰例1
df = pd.DataFrame(data=d, dtype=np.int8) #⽰例2
df = pd.read_csv("somefile.csv", dtype = {'column_name' : str})
对于单列或者Series
下⾯是⼀个字符串Seriess的例⼦,它的dtype为object:刷乳胶漆
>>> s = pd.Series(['1', '2', '4.7', 'pandas', '10'])
>>> s
0 1
杭州复读1 2
2 4.7
3 pandas
4 10
dtype: object
使⽤to_numeric转为数值。默认情况下,它不能处理字母型的字符串'pandas':
>>> pd.to_numeric(s) # _numeric(s, errors='raise')
ValueError: Unable to parse string
八百彪兵奔北坡可以将⽆效值强制转换为NaN,如下所⽰:
>>> pd.to_numeric(s, errors='coerce')
0 1.0
1 2.0
2 4.7
3 NaN
嘻的拼音4 10.0
dtype: float64
如果遇到⽆效值,第三个选项就是忽略该操作:
>>> pd.to_numeric(s, errors='ignore')
# the original Series is returned untouched
对于多列或者整个DataFrame
如果想要将这个操作应⽤到多个列,依次处理每⼀列是⾮常繁琐的,所以可以使⽤DataFrame.apply处理每⼀列。对于某个DataFrame:
>>> a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]
>>> df = pd.DataFrame(a, columns=['col1','col2','col3'])
>>> df
col1 col2 col3
0 a 1.2 4.2
1 b 70 0.03
2 x 5 0
然后可以写:
df[['col2','col3']] = df[['col2','col3']]._numeric)
那么'col2'和'col3'根据需要具有float64类型。
但是,可能不知道哪些列可以可靠地转换为数字类型。在这种情况下,设置参数:
90平米装修预算
df._numeric, errors='ignore')
然后该函数将被应⽤于整个DataFrame,可以转换为数字类型的列将被转换,⽽不能(例如,它们包含⾮数字字符串或⽇期)的列将被单独保留。
另外pd.to_datetime和pd.to_timedelta可将数据转换为⽇期和时间戳。
软转换——类型⾃动推断
版本0.21.0引⼊了infer_objects()⽅法,⽤于将具有对象数据类型的DataFrame的列转换为更具体的类型。
例如,⽤两列对象类型创建⼀个DataFrame,其中⼀个保存整数,另⼀个保存整数的字符串:
>>> df = pd.DataFrame({'a': [7, 1, 5], 'b': ['3','2','1']}, dtype='object')
>>> df.dtypes
a object
b object
dtype: object
然后使⽤infer_objects(),可以将列'a'的类型更改为int64:
>>> df = df.infer_objects()
>>> df.dtypes
a int64
b object
dtype: object
由于'b'的值是字符串,⽽不是整数,因此'b'⼀直保留。
astype强制转换
如果试图强制将两列转换为整数类型,可以使⽤df.astype(int)。
⽰例如下:
a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]
df = pd.DataFrame(a, columns=['one', 'two', 'three'])
df
Out[16]:
one two three
0 a 1.2 4.2
1 b 70 0.03
2 x 5 0
df.dtypes
Out[17]:
旧车置换补贴one object
two object
three object
df[['two', 'three']] = df[['two', 'three']].astype(float)
df.dtypes
Out[19]:
one object
two float64
three float64
总结
以上所述是⼩编给⼤家介绍的pandas读取CSV⽂件时查看修改各列的数据类型格式,希望对⼤家有所帮助,如果有任何疑问欢迎给我留⾔,⼩编会及时回复⼤家的!

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。