参与生成树的特征数目(个人还不太确定),对 iris 数据集,其输出是 4. 如果创建树时设置 max_features = 3,其属性 max_features_ 值就是 3,所以我应该没有猜错。
n_classes_类的数目。对 iris 数据集,其输出是 3.
fit 函数产生的特征数目,对 iris 数据集,其输出是 4.
fit 函数输出结果数目,对 iris 数据集(单值输出),其输出是 1.
生成的树对象。
方法拟合数据后得到的决策树同样有一些方法,可以用来查看一些信息,当然最重要的是预测。下面列出几个比较重要的方法。
返回每个样本的叶节点的预测序号。
decision_path(X, check_input=True)返回决策树的决策路径 [n_samples, n_nodes].
从训练数据建立决策树,返回一个对象。
预测X的分类或者回归,返回 [n_samples].
predict_log_proba(X)预测输入样本的对数概率,返回[n_samples, n_classes].
预测输入样本的属于各个类的概率[n_samples, n_classes].
返回对于测试数据的平均准确率。
总结从决策树的各种参数设置可以发现,大多都和控制生成树的规模有关,所以也反映出决策树模型是一种很容易过拟合的模型
一般来说,样本量过小时,容易过拟合,如果同时特征很多,此时应考虑降维
使用决策树模型时,可以利用决策树可视化的优点,探测性尝试树的深度