2. 维归约:可以检测并删除不相关、弱相关或冗余的属性或维。
3. 数据压缩: 使用编码机制压缩数据集。
在数据压缩时,应用数据编码或变换,以便得到原数据的归约或“压缩”表示。如果原数据可以由压缩数据重新构造而不丢失任何信息,则所使用的数据压缩技术是无损的。如果我们只能重新构造原数据的近似表示,则该数据压缩技术是有损的。有一些很好的串压缩算法。尽管它们是无损的,但它们只允许有限的数据操作。
两种有效的有损数据压缩方法:
离散小波变换(DWT)
主要成分分析(PCA)
4. 数值压缩: 用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图。
5. 离散化和概念分层产生: 属性的原始值用区间值或较高层的概念替换。概念分层允许挖掘多个抽象层上的数据,是数据挖掘的一种强有力的工具。
四、特征工程(feature engineering) 4.1.特征构建、特征创建
填充分类特征
编码分类变量
扩展数值特征
4.2.特征提取、特征抽取针对文本特征的提取
词袋法
CountVectorizer
TF-IDF向量化器
针对图像特征的提取
4.3.特征选择特征太少,不足以描述数据,造成偏差过高;特征太多,一是增大计算成本,二是造成维度灾难(方差过高导致过拟合)。
爱因斯坦:“尽量让事情简单,但不能过于简单。”机器学习算法性能的上限,取决于特征的选择。
特征选择技术可以精简掉无用的特征,以降低最终模型的复杂性,它的最终目的是得到一个简约模型,在不降低预测准确率或对预测准确率影响不大的情况下提高计算速度。
为了得到这样的模型,有些特征选择技术需要训练不止一个待选模型。换言之,特征选择不是为了减少训练时间(实际上,一些技术会增加总体训练时间),而是为了减少模型评分时间。
粗略地说,特征选择技术可以分为以下三类。
1)过滤器法、Filter过滤技术对特征进行预处理,以除去那些不太可能对模型有用处的特征。例如,我们可以计算出每个特征与响应变量之间的相关性或互信息,然后过滤掉那些在某个阈值之下的特征。过滤技术的成本比下面描述的打包技术低廉得多,但它们没有考虑我们要使用的模型,因此,它们有可能无法为模型选择出正确的特征。我们最好谨慎地使用预过滤技术,以免在有用特征进入到模型训练阶段之前不经意地将其删除。
2)打包方法、封装器法、Wrapper这些技术的成本非常高昂,但它们可以试验特征的各个子集,这意味着我们不会意外地删除那些本身不提供什么信息但和其他特征组合起来却非常有用的特征。打包方法将模型视为一个能对推荐的特征子集给出合理评分的黑盒子。它们使用另外一种方法迭代地对特征子集进行优化。
3)嵌入式方法、Embedded这种方法将特征选择作为模型训练过程的一部分。例如,特征选择是决策树与生俱来的一种功能,因为它在每个训练阶段都要选择一个特征来对树进行分割。另一个例子是ℓ1 正则项,它可以添加到任意线性模型的训练目标中。 ℓ1 正则项鼓励模型使用更少的特征,而不是更多的特征,所以又称为模型的稀疏性约束。嵌入式方法将特征选择整合为模型训练过程的一部分。它们不如打包方法强大,但成本也远不如打包方法那么高。与过滤技术相比,嵌入式方法可以选择出特别适合某种模型的特征。从这个意义上说,嵌入式方法在计算成本和结果质量之间实现了某种平衡。
4.4.特征变换、特征转换主成分分析PCA
线性判别分析LDA
4.5.特征学习-以AI促AI受限玻尔兹曼机 RBM
伯努利受限玻尔兹曼机BernoulliRBM
学习文本特征:
Word2vec
GloVe
五、建模(Modeling) 5.1.选择建模技术自己生成了一张思维导图:
数据挖掘问题类型及其技术
点击即可下载
5.2.生成测试设计略,可参照
CRISP-DM1.0循序渐进数据挖掘指南
点击以上链接即可下载!!!
5.3.建立模型略,可参照
CRISP-DM1.0循序渐进数据挖掘指南
点击以上链接即可下载!!
5.4.评估模型略,可参照
CRISP-DM1.0循序渐进数据挖掘指南
点击以上链接即可下载!!
六、评价(Evaluation)略,可参照
CRISP-DM1.0循序渐进数据挖掘指南
点击以上链接即可下载!!
七、部署(Deployment)略,可参照
CRISP-DM1.0循序渐进数据挖掘指南
点击以上链接即可下载!!
数据科学交流群,QQ群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入!