数据准备 :变量筛选-理论篇 (2)

基尼指数(Gini Index),是另一个用来度量随机事件不确定程度的指标,其定义Gini(X)为:
\[ Gini(X)=\sum_{i=1}^n{p_i*(1-p_i)=1-\sum_{i=1}^n{p_i^2}} \]针对例1,分别计算基尼指数:
情况1:Gini=0.50
情况2:Gini=0.42
情况3:Gini=0.18
可以看出,基尼指数越大,随机事件的不确定程度就越大。
类似于信息增益的定义,定义指标“基尼指数降低值”:
\[ \Delta{Gini}(A) = Gini(X) - Gini(X,A) \]其中,\(Gini(X)\)为引入变量A之前随机事件X的基尼指数,\(Gini(X,A)\)为引入变量A之后随机事件X的基尼指数。
同样,基尼指数降低值越大,代表引入变量A之后,消除随机事件X不确定程度越大,说明变量A对目标变量X的预测能力就越强。
针对例2,计算基尼指数及其降低值:
Gini(X)=0.4592
Gini(X,'age')=0.3429,\(\Delta\)Gini('age')=0.1163
Gini(X,'income')=0.4405,\(\Delta\)Gini('income')=0.0187
\(\Delta\)Gini('age')>\(\Delta\)Gini('income'),因此变量“age”比变量“income”对目标变量的预测能力要强。

2.3 区分度

在二分类问题中,可以使用区分度这个指标,它是从另一个角度来评估随机事件不确定程度的指标。
上文中,信息增益和基尼指数降低值,都是从引入变量A后随机事件X不确定性的消除程度来评估变量A对X的预测能力的。由于引入变量A前,随机事件X的不确定程度是确定的,消除程度越大,说明引入变量A后随机事件X的不确定程度越小,所以也可以直接通过度量引入变量A后随机事件X的不确定程度来评估变量A对X的预测能力。区分度正是这样的指标。
在上文中,我们还知道,随机事件的概率分布越均匀,它的不确定程度越大。
因此,基于这两点,定义“区分度”如下:
\[ 区分度=max_{j=1}^m(pa_j/p) \]其中,\(p\)为引入变量A以前随机变量X取值为响应值的概率,\(pa_j\)为引入变量A之后,在变量A取值为j时,随机变量X取值为响应值的概率。
区分度反映了引入变量A后随机事件X发生概率的均匀程度,取值越大,代表越不均匀,不确定程度就越小,变量A的预测能力就越强。
针对例2,它属于一个二分类问题,buy_computer='yes'为响应值。
区分度('age')=1.56
区分度('income')=1.17
区分度('age')>区分度('income'),因此变量“age”比变量“income”对目标变量的预测能力要强。
一般的,将区分度=1.5作为筛选阈值,选择区分度大于1.5的变量。

2.4 信息值(IV)

在二分类问题中,也可以使用信息值(Information Value,IV)度量变量A对随机事件X的预测能力。
定义如下:
\[ woe_j=ln(\frac{{cov_Y}_j}{{cov_N}_j})=ln(\frac{\frac{Y_j}{Y}}{\frac{N_j}{N}}) \]\[ IV=\sum_{j=1}^m{({cov_Y}_j-{cov_N}_j)*woe_j}=\sum_{j=1}^m{({\frac{Y_j}{Y}}-{\frac{N_j}{N}})*woe_j} \]其中,woe(Weight of Evidence,证据权重),它是根据变量A的取值将随机事件样本集进行分组,分成m组,每组分别计算woe取值。
woe等于每一组内响应样本的覆盖率(\({cov_Y}_j\))与非响应样本的覆盖率(\({cov_N}_j\))的比值的取对数,从这个定义上可以理解成,woe考察的是每个分组内,响应样本相对非响应样本的分布差异,如果二者没有差异,说明与总体分布完全相同,此时woe取值为0。当响应样本分布多于非响应样本,woe>0;反之,woe<0。
由于woe的取值有正有负,同时,衡量变量A的预测能力是一个样本全集概念,而不是某一个样本子集,因此,将每一组内响应样本的覆盖率与非响应样本的覆盖率的差值作为权重,对woe进行加权求和得到的值,定义为IV,既可以得到一个整体指标,也可以将指标值调和成正值。
针对例2,buy_computer='yes'为响应值,buy_computer='no'为非响应值。
IV('age')=2.0358
IV('income')=0.1773
IV('age')>IV('income'),因此变量“age”比变量“income”对目标变量的预测能力要强。
一般的:

数据准备 :变量筛选-理论篇


将0.10作为筛选阈值,选择IV大于等于0.10的变量。
需要说明的:关于分组中的响应值或者非响应值为0时的处理方式:
1)重新分组,尽量不出现这种情况;
2)手工调整这个值,将其调整为1。

3.基于机器学习的方法

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpszjx.html