写一手漂亮的代码,走向极致的编程 二、代码运行时内存分析 (3)

之前在做数据挖掘竞赛的时候,有一个经常使用的分批处理的模板(针对 .csv 数据),就在这里分享给大家

import pandas as pd import tqdm data = pd.read_csv(path, iterator=True) chunk_size = 500000 # 每一批读入数据大小 data_size = 300000 # 采样时用 tmp_df = data.get_chunk(chunk_size).head(data_size) # 每次读取 chunk_size 大小的数据,迭代 n 次 with tqdm.tqdm(range(n), 'Training..') as t: for _ in t: try: # your code here except StopIteration: break

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zydxdy.html