在pandas中我们可以对单个Series查看hanans属性来了解其是否包含缺失值,而结合apply(),我们就可以快速查看整个数据框中哪些列含有缺失值:
df = pd.DataFrame({ 'V1': [1, 2, None, 4], 'V2': [1, 2, 3, 4], 'V3': [None, 1, 2, 3] }) df.apply(lambda s: s.hasnans)在pandas中我们可以利用rank()方法计算某一列数据对应的排名信息,但在rank()中有参数method来控制具体的结果计算策略,有以下5种策略,在具体使用的时候要根据需要灵活选择:
average
在average策略下,相同数值的元素的排名是其内部排名的均值:
s = pd.Series([1, 2, 2, 2, 3, 4, 4, 5, 6]) s.rank(method='average')min
在min策略下,相同元素的排名为其内部排名的最小值:
s.rank(method='min')max
max策略与min正好相反,取的是相同元素内部排名的最大值:
s.rank(method='max')dense
在dense策略下,相当于对序列去重后进行排名,再将每个元素的排名赋给相同的每个元素,这种方式也是比较贴合实际需求的:
s.rank(method='dense')first
在first策略下,当多个元素相同时,会根据这些相同元素在实际Series中的顺序分配排名:
s = pd.Series([2, 2, 2, 1, 3]) s.rank(method='first')关于pandas还有很多实用的小知识,以后会慢慢给大家不定期分享~欢迎在评论区与我进行讨论