在数据分析当中的东西还是很多的,我在这里只是启发式的介绍一下,了解到这方面的东西之后,使用的时候可以更快的找到解决办法,希望能对大家有所帮助。
这次,依然是使用的sklearn中的iris数据集,对其进行通过热图来展示。
预处理sklearn.preprocessing是机器学习库中预处理的模块,可以对数据进行标准化处理,正则化等等,根据需求来使用。在这里利用它的标准化方法对数据进行整理。其他的方法可以自行查询。
Standardization标准化:将特征数据的分布调整成标准正态分布,也叫高斯分布,也就是使得数据的均值为0,方差为1。
标准化的原因在于如果有些特征的方差过大,则会主导目标函数从而使参数估计器无法正确地去学习其他特征。
标准化的过程为两步:去均值的中心化(均值变为0);方差的规模化(方差变为1)。
在sklearn.preprocessing中提供了一个scale的方法,可以实现以上功能。
下面举个例子来看一下:
1 from sklearn import preprocessing 2 import numpy as np 3 4 # 创建一组特征数据,每一行表示一个样本,每一列表示一个特征 5 xx = np.array([[1., -1., 2.], 6 [2., 0., 0.], 7 [0., 1., -1.]]) 8 9 # 将每一列特征标准化为标准正太分布,注意,标准化是针对每一列而言的 10 xx_scale = preprocessing.scale(xx) 11 12 xx_scale