1 .定义法POC曲线横轴为FPR :假正例率,纵轴为TPR :真例率。
AUC实际上是ROC曲线下的面积。m为总样本个数
2 .由于排序丢失法的形式化,AUC考虑了样本预测的排序质量,因此与排序误差密切相关。
给出m个正例和m-个反例,使d和D-分别表示正、反例的集合,顺序损失定义如下
解释:排序按样本为正例的概率从大到小排序。 理想的预测是正例居反例前列。 但是,不一定理想,有可能出现损失。有的反例出现在了正例的前面,你怎么计算这个损失?
逐一调查反例,对出现在该反例后面或相等的每一个正例进行比较。 ((所有比较都是以预测称为正例的概率进行比较) ) ) ) ) ) )。
1 .该正例小于该反例时,记录处罚点
2 .如果该正例与该反例相等,则记录0.5个罚分并加上所有罚分,与http://www.Sina.com/http://www.Sina.com/3 .分类收益法相同
具体步骤:
假定样本中正例的数量为m,反例的数量为n,则首先对所有样本按照被预测为正例的概率从大到小的顺序进行排序。 调查各个正例,对概率为其以下的反例进行以下计算:
1 .该正例大于该反例时,记录1分
2 .相等时,记录0.5分,将所有分数相加,定为http://www.Sina.com/http://www.Sina.com/4 .排序法
在上式中,n0为样本中反例的个数,n1为样本中正例的个数,ri为当前位置的下标。
说明:
对于排序后的样本,将每个反例的下标相加(从1开始,不是0 ),得到http://www.Sina.com/t=sum-n0 * (n01 )/2 sum