首页 > 编程知识 正文

内容安全准确率召回率,准确率和召回率的关系

时间:2023-05-04 20:36:08 阅读:126383 作者:376

问题

最近,有个朋友带着两个模型的预测效果比较结果来咨询。 当然,遇到异常现象来咨询。 这两种模型都是二分类的结局,应用常见的Logistic回归模型的结果如下。 模型a的正确率为85%,AUC为0.98; 模型b的正确率为93%,AUC为0.92。 那么你选择哪个型号?

很多朋友应该首先质疑方法使用的正确性,但这个问题发生的可能性很低。 我们假设方法正确,主要讨论AUC和正确率矛盾的问题。

查阅文献发现,许多朋友也面临同样的问题,更巧的是,现有学者通过仿真研究证实了矛盾的存在。 下面图表的最后一列显示的正是AUC与正确率的结论的一致比率,最低可达93.5%。

解释

接下来,从简单的理论出发,说明两者可能矛盾的原因吧。 正确率是根据好的截断值计算的,所以很多朋友认为他应该可靠。 但是,他们可能不知道AUC是根据所有可能的截断值计算的。 他应该更稳健。

你怎么理解“稳健”这个词? 可以理解为,计算正确率时使用的良好截断值不是总体分布中的良好截断值,正确率只是某个随机样本的一个属性指标。 另一方面,AUC不关注某个截止值如何出现,能够合并所有的截止值的预测性能,所以正解率高,AUC不一定大,反之亦然。

“theimplicitgoalofaucistodealwithsituationswhereyouhaveaskewedsampledistribution,and don ' twanttoover-fittoasingleclass . 但是,没有考虑到此时的特异度为0。

于是,回到开头的朋友的提问,“模型a的正确率为85%,AUC为0.98; 模型b正确率为93%,AUC为0.92”,应根据AUC的大原则选择模型a作为较好的模型进行后续分析。

结论

在模型比较问题中,应该在正确率和AUC之间选择AUC。 引用参考文献的两个结论:

aucisabettermeasurethanaccuracybasedonformaldefinitionsofdiscriminancyandconsistency

thepaperrecommendsusingaucasa“单编号”measuretooveraccuracywhenevaluatingandcomparingclassifiers

报告roc软件包

最后,介绍一种r软件包,可以用一行代码轻松地输出多个诊断试验的评价指标,如截断值、灵敏度、特异度、AUC、阳性似然比、阴性似然比、阳性预测值、阴性预测值等。 最重要的是可以得到上述各项指标的置信区间(

库(报告roc )。

是数据(asah )

报告roc (gold=asah $ outcome,predictor=aSAH$s100b ) ) ) ) ) ) ) ) )。

参考文献

ling CX.AUC : abettermeasurethanaccuracyincomparinglearningalgorithms.http://site.uottawa.ca/~ stan/CSI 7162/prese

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。