这里是本人收集的一些 Python 编程小技巧,适合有一定基础的童鞋观看。。
一、函数式编程函数式编程用来处理数据,感觉很方便。(要是再配上管道操作符 | 或者 Java 的那种链式调用,超级爽!可惜 Python 都没有。。只有第三方库)
1. 分组/group数据处理中一个常见的操作,是将列表中的元素,依次每 k 个分作一组。
def group_each(a, size: int): """ 将一个可迭代集合 a 内的元素, 每 size 个分为一组 group_each([1,2,3,4], 2) -> [(1,2), (3,4)] """ iterators = [iter(a)] * size # 将新构造的 iterator 复制 size 次 return zip(*iterators) # 然后 zip这个函数的原理,之前在 Python 拾遗 - 奇技淫巧 中就写过。
顺便如果某个 k 比较常用(比如 2),还可以用 partial 封装一下
from functools import partial # 每两个分一组 group_each_2 = partial(group_each, size=2) 2. 扁平版本的 map稍微接触过函数式应该都知道 flat_map,可 Python 标准库却没有提供。下面是我在 stackoverflow 上找到的实现,其实很简单
from itertools import chain def flat_map(f, items): return chain.from_iterable(map(f, items))它和 map 的差别在于是不是扁平(flat) 的(废话。。),举个例子
>>>list(map(list, ['123', '456'])) [['1', '2', '3'], ['4', '5', '6']] >>>list(flat_map(list, ['123', '456'])) ['1', '2', '3', '4', '5', '6'] 3. 上述函数的应用举例在做爬虫工作时,有时会遇到这样的 table 元素:
对这种 html 元素,我一般会直接把它转换成 list,结果如下:
table = [['label1', 'value1', 'label2', 'value2'], ['label3', 'value3'], ['label4', 'value4', 'label5', 'value5'], ... ]为了方便索引,现在我需要把上面的数据转换成下面这个样子的 dict
{ 'label1': 'value1', 'label2': 'value2', 'label3': 'value3', 'label4': 'value4', 'label5': 'value5' }如果是平常,大概需要写循环了。不过如果用刚刚说到的几个函数的话,会变得异常简单
# 1. 分组 groups = flat_map(group_each_2, table) # 1.1 flat_map 返回的是迭代器,list 后内容如下: # [('label1', 'value1'), # ('label2', 'value2'), # ('label3', 'value3'), # ('label4', 'value4'), # ('label5', 'value5')] # 2. 转换成 dict key_values = dict(groups) # 得到的 key_values 与上面需要的 dict 别无二致。 二、其他 1. 多 dict 的去重假设我们有一个 dict 的列表,里面可能有内容一模一样的 dict,我们需要对它做去重。
容易想到的方法就是使用 set,可是 set 中的元素必须是 hashable 的,而 dict 是 unhashable 的,因此不能直接放进 set 里。
难道就必须手写递归了么?未必,我在 stackoverflow 看到这样一个小技巧
def unique_dicts(data_list: list): """unique a list of dict dict 是 unhashable 的,不能放入 set 中,所以先转换成json""" data_json_set = set(json.dumps(item) for item in data_list) return [json.loads(item) for item in data_json_set]慢慢更新,想到啥就加啥。