数据准备 :变量筛选-理论篇

在上一篇文章《数据准备<3>:数据预处理》中,我们提到降维主要包括两种方式:基于特征选择的降维和基于维度转换的降维,其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选,是指从多个特征(变量)中筛选出显著的特征(变量),在分类预测问题中,就是筛选出对目标变量有预测能力的特征(变量)。本篇主要介绍特征(变量)筛选的基本思路与方法,为简洁,下文均使用“变量筛选”指代。

变量筛选主要有三种方法基于经验的方法(比如专家法)、基于统计的方法(比如信息增益、区分度)和基于机器学习的方法(比如决策树算法)。下面将分别具体介绍:

1.基于经验的方法

根据业务专家或者数据专家的以往经验、实际数据情况、业务理解程度等进行综合考虑。业务专家依靠的是业务背景,从众多维度变量中选择对结果影响较大的变量;而数据专家依靠的则是数据工作经验,基于数据的基本特征以及对后期数据处理和建模的影响来选择或者排除,比如删除缺失值较多的变量。

2.基于统计的方法

构建统计指标,对变量的预测能力进行度量,选择其中预测能力较大的变量。
首先,从香农的信息熵说起。
香农(Claude Elwood Shannon,1916年4月30日—2001年2月24日)是美国数学家、信息论的创始人,他在1948年发表的《通信的数学理论》论文中提出了信息熵的概念,认为信息是用来减少随机不确定的东西,使用信息熵对信息进行定量度量。
定义任意一个随机事件\(X\),其发生的可能情况有\(x_1,x_2……,x_n\),对应的概率分别为\(p_1,p_2,……,p_n\),它的信息熵\(H(X)\)定义为:
\[ H(X)=-\sum_{i=1}^n{p_i*log(p_i)} \]信息熵反映了消除这个随机事件不确定性所需要的信息量的大小,换言之,信息熵度量了一个随机事件不确定程度的大小。
信息熵越大,代表一个随机事件不确定程度越高,消除这个随机事件不确定性所需要的信息就越多。
例1:现在要基于历史样本集预测一个新用户是否会换机,提供了三个样本集:

数据准备 :变量筛选-理论篇


对于一个用户来说,是否会换机是一个随机事件,其取值有两种情况:换、不换。
在三个样本集下,该随机事件的概率分布分别为:

数据准备 :变量筛选-理论篇


对应的,在三个样本集下,这个随机事件的信息熵分别为:
样本集1:H=1
样本集2:H=0.88
样本集3:H=0.47
可以看到,随机事件的概率分布越均匀,它的不确定程度就越大,信息熵就越大。
下面我们回到变量筛选的话题中。
变量筛选是筛选出对目标变量的预测有帮助的变量,那么又如何定义一个变量对目标变量的预测有帮助?
可以认为,如果引入一个变量后,这个变量可以一定程度上消除目标变量这个随机事件的不确定性,那么就可以说这个变量对目标变量的预测有帮助,换言之,这个变量具有对目标变量的预测能力。如果消除不确定性的程度越大,那么这个变量就越重要、预测能力就越强。
明白这一点后,事情就变得简单起来。我们可以通过评估引入某个变量前后,目标变量这个随机事件的不确定性的变化大小,来判断一个变量对目标变量的预测能力。

2.1 信息增益

信息增益的概念非常简单,就是引入一个变量前后,一个随机事件的信息熵的变化值,通俗的说,就是不确定性消除的大小。
\[ Gain(A) = H(X) - H(X,A) \]其中,\(H(X)\)为引入变量A之前随机事件X的信息熵,\(H(X,A)\)为引入变量A之后随机事件X的信息熵。
显然,信息增益越大,代表引入变量A之后,消除随机事件X不确定性的程度越大,说明变量A对目标变量X的预测能力就越强。
另外,我们称\(H(X,A)\)为条件熵,即随机变量X在条件A下的信息熵。其计算方法为:
\[ H(X,A)=-\sum_{j=1}^m{pa_j}\sum_{i=1}^n{(p_i|pa_j)*log(p_i|pa_j)} \]其中,\(p_i|pa_j\)为条件A取值为j的情况下随机变量X的取值概率,\(pa_j\)为随机变量A取值为j的概率。
例2:使用经典的AllElectronics数据集,用于预测一个顾客是否会购买电脑。

数据准备 :变量筛选-理论篇


从样本总体上看:

数据准备 :变量筛选-理论篇


如果引入age变量,如下:

数据准备 :变量筛选-理论篇


如果引入income变量,如下:

数据准备 :变量筛选-理论篇


可以得到:
H(X)=0.9403
H(X,'age')=0.6935,Gain(X,'age')=0.2468
H(X,'income')=0.9111,Gain(X,'income')=0.0292
由于Gain(X,'age')>Gain(X,'income'),所以变量age比变量income对目标变量buy_computer的预测能力要强。

2.2 基尼指数

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpszjx.html