1.3预处理与热图

  在数据分析当中的东西还是很多的,我在这里只是启发式的介绍一下,了解到这方面的东西之后,使用的时候可以更快的找到解决办法,希望能对大家有所帮助。

  这次,依然是使用的sklearn中的iris数据集,对其进行通过热图来展示。

  预处理

  sklearn.preprocessing是机器学习库中预处理的模块,可以对数据进行标准化处理,正则化等等,根据需求来使用。在这里利用它的标准化方法对数据进行整理。其他的方法可以自行查询。

Standardization标准化:将特征数据的分布调整成标准正态分布,也叫高斯分布,也就是使得数据的均值为0,方差为1。

标准化的原因在于如果有些特征的方差过大,则会主导目标函数从而使参数估计器无法正确地去学习其他特征。

标准化的过程为两步:去均值的中心化(均值变为0);方差的规模化(方差变为1)。

在sklearn.preprocessing中提供了一个scale的方法,可以实现以上功能。

  下面举个例子来看一下:

1 from sklearn import preprocessing 2 import numpy as np 3 4 # 创建一组特征数据,每一行表示一个样本,每一列表示一个特征 5 xx = np.array([[1., -1., 2.], 6 [2., 0., 0.], 7 [0., 1., -1.]]) 8 9 # 将每一列特征标准化为标准正太分布,注意,标准化是针对每一列而言的 10 xx_scale = preprocessing.scale(xx) 11 12 xx_scale

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpwdzf.html