模型构建 :模型评估-分类问题 (2)

ROC曲线(Receiver Operating Characteristic),受试者工作特征曲线,与PR曲线类似,通过调整正例的判别阈值绘制出来的。不同的是,ROC曲线以“真正例率(True Positive Rate,TPR)”作为纵轴,以“假正例率(False Positive Rate,TPR)”作为横轴。TPR和FPR的定义如下:
\[ TPR=\frac{TP}{TP+FN} \]\[ FPR=\frac{FP}{TN+FP} \]
如下是几种ROC曲线示例:

模型构建 :模型评估-分类问题


ROC曲线的定义来源于医学诊断,如果从“真正例率(True Positive Rate,TPR)”、“假正例率(False Positive Rate,TPR)”上来解释可能不太直观,我们直接回到医学领域理解可能要更容易。
在医学诊断中,我们要识别病人是否有病,以阴阳为例,判断有病,即为找到阳例,判断无病,即为找到阴例。我们的任务是要尽可能地有病的人找出来,也尽量不要把没有病的人诊断为有病,所以要关注两个指标,即真阳性的样例中识别为阳性的比例、真阴性的样例中识别为阳性的比例,也就是上文中提到的TPR和FPR,第一个指标要尽可能大,第二个指标要尽可能小。但是,这两个指标类似于查全率和查准率,是相互制约的,要想识别出更多有病的人,就需要去诊断更多的人,那么就有可能误伤更多没有病的人。以这两个指标为横纵轴,不断调整阳例的识别标准,就绘制出了ROC曲线。
ROC曲线有以下几点特征
1)正对角线,代表随机猜想预测,一半预测正确,一半预测错误。
2)点(0,1)是理想状态,代表全部正例都被预测为正例,同时没有反例被预测为正例。因此,越接近(0,1)点,预测能力越好。
3)如果一个模型的ROC曲线完全包住另一个模型的ROC曲线,说明第一条曲线更接近于(0,1)点,其模型性能更好。
4)如果两个模型的ROC曲线出现相交的情况,同样可以通过曲线下方与坐标轴围成的面积大小来比较二者的性能优劣,面积大的说明性能更好。这个面积指标被称作ROC-AUC(Area Under ROC Curve)。
假设ROC曲线是由点\((x_1,y_1),(x_2,y_2)……(x_m,y_m)\)连成折线围成了,那么ROC-AUC的取值为下方各个小梯形面积之和:

模型构建 :模型评估-分类问题


一般来说,我们说的AUC都是指ROC-AUC。

4.参考与感谢

[1] 统计学习方法
[2] 机器学习
[3] ROC曲线与AUC值



内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpddxp.html