环境:Linux-cenos5
processor : 31
model : 62
model name : Intel(R) Xeon(R) CPU E5-2640 v2 @ 2.00GHz
cpu MHz : 2000.066
cache size : 20480 KB
memory : 125G
在如上所述的单机环境中,使用一些优化可以使基于pandas数据格式的模型训练数据容量由600W增长为至少2000W,训练时间减少为1/5。具体方案如下:
数据读取优化
数据量4200W行,193列,每列存储为string类型的单精度浮点数,文件表由csv格式存储,总大小16GB+。通过如下语句读取到dataframe中去:
df_train = pd.read_csv(path,header=None,sep=\',\',nrows=40000000,error_bad_lines=False,delimiter="\t",lineterminator="\n", keep_default_na=True)