毫无疑问pandas已经成为基于Python的数据分析领域最重要的包,而就在最近,pandas终于迎来了1.0.0版本,对于pandas来说这是一次更新是里程碑式的,删除了很多旧版本中臃肿的功能,新增了一些崭新的特性,更加专注于高效实用的数据分析,本文就将针对pandas 1.0.0在笔者眼中比较重要的特性进行介绍,对于想要完整彻底了解新版本特性的朋友可以直接去看官方文档。
图1 2 pandas 1.0.0中的新特性由于1.0.0并不作为正式版发布,因此要安装它需要指定版本(请注意,pandas 1.0.0目前只支持Python 3.6.1及以上版本):
pip install --upgrade pandas==1.0.0rc0成功安装后,让我们来体验一下全新版本的pandas给我们带来了哪些令人兴奋的功能吧。
2.1 新增StringDtype数据类型一直以来,pandas中的字符串类型都是用object来存储的,这次更新带来的新的更有针对性的StringDtye主要是为了解决如下问题:
object类型对于字符串与非字符串混合的数据无差别的统一存储为一个类型,而现在的StringDtype则只允许存储字符串对象
我们通过下面的例子更好的理解这个新特性,首先我们在excel中创建如下的表格(图2),其包含两列V1和V2,且V1中的元素并不是纯粹的字符串,混杂了数字,而V2则为纯粹的字符串列:
图2在jupyter lab中我们首先读入该数据并查看其具体信息:
# 读入StringDtype_test.xlsx并查看其具体信息 StringDtype_test = pd.read_excel('StringDtype test.xlsx') StringDtype_test.info() 图3可以看到在数据读入阶段两列都被当作object型,接下来我们使用astype方法分别对两列强制转换类型为string,看看在我们的新版本中会发生什么(注意,在1.0.0版本中StringDtype的简称为string):
# 对V1进行强制类型 StringDtype_test['V1'].astype('string') 图4可以看到,运行这段代码后抛出了对应的错误,因为StringDtype只允许字符串出现,包含数字1的V1便被拒绝转换为string型,而对于V2:
# 对V2进行强制类型 StringDtype_test['V2'].astype('string') 图5则正常完成了数据类型的转换,而pandas中丰富的字符串方法对新的string同样适用,譬如英文字母大写化:
StringDtype_test['V2'].astype('string').str.upper() 图6 2.2 markdown表格导出在新版本的pandas中新增了一个很有意思的方法to_markdown(),通过它我们可以将表格导出为markdown格式,下面是一个例子:
df = pd.DataFrame({"A": [1, 2, 3], "B": [1, 2, 3]}, index=['a', 'a', 'b']) # 导出为markdown表格字符串 print(df.to_markdown()) 图7下面的表格就是我直接将图7中打印出的markdown格式表格放到编辑器中的效果,只要你的编辑器支持markdown格式,就可以这样方便地生成表格:
A Ba 1 1
a 2 2
b 3 3
2.3 新增ingore_index参数
我们在过去版本对DataFrame或Series按列使用sort_values()、按index使用sort_index()排序或使用drop_duplicates()去除数据框中的重复值时,经常会发现处理后的结果index随着排序或行的删除而被打乱,在index无意义时我们需要使用reset_index()方法对结果的index进行重置,而在新版本的pandas中,为sort_values()、sort_index()以及drop_duplicates()引入了新参数ignore_index(),这是一个bool型变量,默认值为False,当被设置为True时,排序后结果的index会被自动重置:
df = pd.DataFrame({ 'V1': [_ for _ in range(5)], }) # ignore_index设置为False df.sort_values(by='V1', ignore_index=False, ascending=False)