特征工程的整体思路:
1. 对于特征的理解、评估
2. 特征处理:
2.1 特征处理
2.1.1 特征清洗
清洗异常、采样
2.1.2 预处理
单特征情况:归一化、离散化、哑变量编码、缺失值填充等。数据变换例如log服从正态分布。
多特征情况:
降维:PCA、LDA(这个不太了解、待学习)
特征选择:三种大方法,Filter——x与y之间的关联,Wrapper——目标函数检验(MSE),Embedded——机器学习方法,正则化、决策树、深度学习。
3. 特征监控
有效性分析和监控。