从Excel到Python:最常用的36个Pandas函数 (2)

从Excel到Python:最常用的36个Pandas函数


Python中处理空值的方法比较灵活,可以使用 Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。

#删除数据表中含有空值的行 df.dropna(how='any')

从Excel到Python:最常用的36个Pandas函数


也可以使用数字对空值进行填充

#使用数字0填充数据表中空值 df.fillna(value=0)

使用price列的均值来填充NA字段,同样使用fillna函数,在要填充的数值中使用mean函数先计算price列当前的均值,然后使用这个均值对NA进行填充。

#使用price均值对NA进行填充 df['price'].fillna(df['price'].mean()) Out[8]: 0 1200.0 1 3299.5 2 2133.0 3 5433.0 4 3299.5 5 4432.0 Name: price, dtype: float64

从Excel到Python:最常用的36个Pandas函数

2.清理空格

字符中的空格也是数据清洗中一个常见的问题

#清除city字段中的字符空格 df['city']=df['city'].map(str.strip)

3.大小写转换

在英文字段中,字母的大小写不统一也是一个常见的问题。
Excel中有UPPER,LOWER等函数,Python中也有同名函数用来解决
大小写的问题。

#city列大小写转换 df['city']=df['city'].str.lower()

从Excel到Python:最常用的36个Pandas函数

4.更改数据格式

Excel中通过“设置单元格格式”功能可以修改数据格式。

从Excel到Python:最常用的36个Pandas函数

Python中通过astype函数用来修改数据格式。

#更改数据格式 df['price'].astype('int') 0 1200 1 3299 2 2133 3 5433 4 3299 5 4432 Name: price, dtype: int32

5.更改列名称

Rename是更改列名称的函数,我们将来数据表中的category列更改为category-size。

#更改列名称 df.rename(columns={'category': 'category-size'})

从Excel到Python:最常用的36个Pandas函数


6.删除重复值

Excel的数据目录下有“删除重复项”的功能

从Excel到Python:最常用的36个Pandas函数


Python中使用drop_duplicates函数删除重复值

df['city'] 0 beijing 1 sh 2 guangzhou 3 shenzhen 4 shanghai 5 beijing Name: city, dtype: object

city列中beijing存在重复,分别在第一位和最后一位
drop_duplicates()函数删除重复值

#删除后出现的重复值 df['city'].drop_duplicates() 0 beijing 1 sh 2 guangzhou 3 shenzhen 4 shanghai Name: city, dtype: object

设置keep='last‘’参数后,与之前删除重复值的结果相反,第一位
出现的beijing被删除

#删除先出现的重复值 df['city'].drop_duplicates(keep='last') 1 sh 2 guangzhou 3 shenzhen 4 shanghai 5 beijing Name: city, dtype: objec

7.数值修改及替换

Excel中使用“查找和替换”功能就可以实现数值的替换

从Excel到Python:最常用的36个Pandas函数


Python中使用replace函数实现数据替换

#数据替换 df['city'].replace('sh', 'shanghai') 0 beijing 1 shanghai 2 guangzhou 3 shenzhen 4 shanghai 5 beijing Name: city, dtype: object 数据预处理

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zydwdp.html