sklearn 学习之分类树 (3)

参与生成树的特征数目(个人还不太确定),对 iris 数据集,其输出是 4. 如果创建树时设置 max_features = 3,其属性 max_features_ 值就是 3,所以我应该没有猜错。

n_classes_

类的数目。对 iris 数据集,其输出是 3.
 

n_features_

fit 函数产生的特征数目,对 iris 数据集,其输出是 4.
 

n_outputs_

fit 函数输出结果数目,对 iris 数据集(单值输出),其输出是 1.
 

tree_

生成的树对象。

方法

拟合数据后得到的决策树同样有一些方法,可以用来查看一些信息,当然最重要的是预测。下面列出几个比较重要的方法。
 

apply(X, check_input=True)

返回每个样本的叶节点的预测序号。

decision_path(X, check_input=True)

返回决策树的决策路径 [n_samples, n_nodes].
 

fit(X, y, sample_weight=None, check_input=True, X_idx_sorted=None)

从训练数据建立决策树,返回一个对象。
 

predict(X, check_input=True)

预测X的分类或者回归,返回 [n_samples].

predict_log_proba(X)

预测输入样本的对数概率,返回[n_samples, n_classes].
 

predict_proba(X, check_input=True)

预测输入样本的属于各个类的概率[n_samples, n_classes].
 

score(X, y, sample_weight=None)

返回对于测试数据的平均准确率。

总结

从决策树的各种参数设置可以发现,大多都和控制生成树的规模有关,所以也反映出决策树模型是一种很容易过拟合的模型

一般来说,样本量过小时,容易过拟合,如果同时特征很多,此时应考虑降维

使用决策树模型时,可以利用决策树可视化的优点,探测性尝试树的深度

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwxsfx.html