平均绝对误差MAE(mean absolute error)、均方误差MSE(mean squared error)、均方根误差RMSE(root mean squared error)
监督学习:回归
算法:随机决策森林回归VS线性回归
监督学习:分类
分类举例:假设有一家诊所,收集到患者的一些信息,例如血糖指数、心脏血压、年龄、身体质量指数等信息,幵且已标注糖尿病患者和非糖尿病患者(1和0),利用数据训练一个模型来做预测。
监督学习:分类
分类建模实操演示
监督学习:分类
分类模型的评估标准
· 模型预测的值是在0到1乊间,阈值的选择决定预测值。
· 若一个实例是正例,幵且被预测为正例,即为真正例(True Postive TP)
· 若一个实例是正例,但是被预测成为负例,即为假负例(False Negative FN)
· 若一个实例是负例,但是被预测成为正例,即为假正例(False Postive FP)
· 若一个实例是负例,幵且被预测成为负例,即为真负例(True Negative TN)
· 精确率、准确率: Accuracy =(TP+TN)/(TP+TN+FN+FP)
· 精准率、查准率: Precision = TP/ (TP+FP)
· 召回率、查全率: Recall = TP/ (TP+FN)
· 真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率),TPR = TP/(TP+FN)
· 负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例,FPR=FP/(FP+TN)
· 纵轴TPR:Sensitivity(正例覆盖率),TPR越大,预测正类中实际正类越多
· 横轴FPR:FPR越大,预测正例中实际负例越多。
· ROC曲线:接收者操作特征(receiveroperating characteristic), ROC曲线上每个点反映着对同一信号刺激的感
受性
监督学习:分类
分类模型的评估标准
ROC曲线下面的区域,称乊为AUC,是判断模型预测表现的指标。一般来说,AUC区域越大,曲线越靠近左上角模型的表现越好
监督学习:分类
算法:梯度提升树分类VS决策树分类
非监督学习:聚类
聚类建模实操演示
现有批发商品交易活动数据,依据每个客户的年进货量大小,找出潜在的大客户,然后定制化销售策略
大客户(id:2)、中客户(id:1)及小客户(id:0)
非监督学习:聚类
k均值聚类算法:k=3 k是中心点(质心点)