基于上面的分析,随机决策树拥有学习能力从原则上也并不是什么神秘的事情,它可以看作是 ASH 算法在多维问题上的一种变种。ASH 算法由于直方图在多维问题上的直接扩展会导致大量的空箱和一个样本的箱使得估计误差会变得很大而失去意义。而树的结构却克服了这个问题,树结构实际上根据样本在数据特征空间中的分布进行了划分,并确保每个叶子节点上的样本数不会少于一个给定的阈值。这就使得树划分出来的各个数据子空间(对应直方图的箱)里的概率估计相对准确。当然,在高维问题下,由于每个叶子节点几乎���可能覆盖所有的维度空间,这些叶子节点上的概率估计实际也只是边缘概率的估计。由于有多棵树对数据特征空间的不同划分,使得对于一个给定点的联合概率的估计由多组不同的边缘概率的平均值来估计。随机决策树实际上就是非参数估计方法在高维问题上的一种妥协。
图 2. 从一个到 32 个直方图时概率密度函数的变化 结束语限于篇幅本篇文章仅简要介绍了随机决策树算法的基本方法,以及为什么这样的纯随机算法具有学习能力。 我们看到随机决策树算法实际上是非参数估计方法在高维问题下的一种妥协。虽然非参数估计方法在低维问题上和效率上与参数估计方法相比并没有什么优势,但是随机决策树算法在高维问题上显示出了很高的效率优势。本系列的下一篇文章将对随机决策树的两种实现方式和算法复杂度进行具体分析,并与其他的一些算法的实际效果进行对比。