而这里的就是类别的总数,此时分类系统的熵就可以表示为
以上就是信息熵的定义,接下来介绍信息增益。
信息增益是针对一个一个特征而言的,就是看一个特征,系统有它和没有它时的信息量各是多少,两者
的差值就是这个特征给系统带来的信息量,即信息增益。
接下来以天气预报的例子来说明。下面是描述天气数据表,学习目标是play或者not play。
可以看出,一共14个样例,包括9个正例和5个负例。那么当前信息的熵计算如下
在决策树分类问题中,信息增益就是决策树在进行属性选择划分前和划分后信息的差值。假设利用
属性Outlook来分类,那么如下图
划分后,数据被分为三部分了,那么各个分支的信息熵计算如下
那么划分后的信息熵为
代表在特征属性的条件下样本的条件熵。那么最终得到特征属性带来的信息增益为
信息增益的计算公式如下