混淆矩阵简单例子,混淆矩阵的实用

目录1混淆矩阵

2从混淆矩阵中得到分类指标

2.1精度(Accuracy ) )。

2.2正确率或正确率(Precision ) ) ) ) )。

2.3召回率(召回) )。

2.4准确率(Accuracy )和准确率)的差异

2.5特殊)。

2.6 F_Score

3 ROC曲线

3.1roc曲线的画法

1模糊矩阵在机器学习领域是模糊矩阵，也称为可能性矩阵或误差矩阵。模糊矩阵是一种可视化工具，特别用于监控学习，在无监控学习中通常称为匹配矩阵。在图像精度评价中，主要用于比较分类结果和实测值，可以在混淆矩阵中表示分类结果的精度。

混淆矩阵的结构一般是下图所示的方法。

混淆矩阵表达的含义：

模糊矩阵的各列表示预测类别，各列的总数表示该类别中预测的数据的数量；每行表示数据的真正归属类别，每行的数据总数表示该类别的数据实例数。每列中的数字表示实际数据被预测为该类的数量。真定位(TP ) :真正的类。样本的真类是正类，模型识别的结果也是正类。

假否定(fn ) :假负类。样本的真类是正类，但模型被认为是负类。

假定位(FP ) :假正类。样本的真正类是负类，但模型将其识别为正类。

真否定(TN ) :真正的负类。样本的真实类是负类，模型将其识别为负类。

此矩阵可用于两种易于理解的分类问题，但通过向混淆矩阵中添加行和列，可以轻松应用于具有三种或更多种值的问题。

举例

如果有150个样本数据，则预测I类、II类、III类分别为50个。分类结束后得到的混淆矩阵如下。

每行的和表示该类的真实样本数，而每行的和表示该类和预测的样本数。

第一行第一列中的43指示实际属于第一类的实例有43个，而第一行第二列中的2指示错误地预测为第二类实际属于第一类的实例有2个。

模糊矩阵总结了分类问题的预测结果。使用计数值来汇总正确的预测和不正确的预测的数量并按类进行细分是混淆矩阵的关键。混淆矩阵表示在进行分类模型预测时哪些部分被混淆。这样不仅可以知道分类模型所犯的错误，还可以知道发生了哪种类型的错误。这种结果的分解克服了只使用分类精度的局限性。

2从模糊矩阵得到的分类指标模糊矩阵中，可以得到更高级的分类指标。精度、精度、召回、召回率、规格、敏感性)灵敏度)。

2.1准确率(Accuracy )准确率是最常用的分类性能指标。可用于表示模型的精度，即正确识别模型的个数/样本总数。一般来说，模型的精度越高，说明模型的效果越好。

accuracy=(TPTN )/(TP FN FP TN ) )。

2.2正确率或正确率(Precision )也称为Precision，表示模型识别为正类的样本中，真正正类的样本所占的比例。一般来说，拟合率越高，说明模型的效果越好。

Precision=TP/(TP FP )

2.3召回率(Recall )又称召回率，召回率显示在实际的常规样本中，分类器可以预测多少。

召回率(=Sensitivity )敏感指标，真定位速率(TPR )=召回率

显示了正确识别为模型为正类的样本数量占总正类样本数量的百分比。一般来说，Recall越高，表示模型可以正确预测更多的正样本，模型的效果越好。

Recall=TP/(TP FN )

比对率和比对率是矛盾的指标。一般来说，查全率高时，查全率低一个；如果两个比对率较高，比对率往往较低。

2.4精度(Accuracy )与精度(Precision )的差异Accuracy，无论是哪个类别，只要预测正确，其数量就会置于分子中，而分母是全部数据量，表示该精度是全部数据的判断。

正确率与分类中的某一类别相对应，分子是预测该类别正确率的数，分母是预测该类别全部的数。

或者，Accuracy是分类器整体精度的评价，Precision是预测分类器所在类别的精度的评价。

2.5“特异性”特异性指标显示了模型认为负类的样本数量占整体负类样本数量的百分比。

负等级率(FPR=FP/) TNFP )被计算为负等级率，计算将模型误认为正等级的负等级的样本占所有负等级的样本的百分比，通常越低越好

规范=1- FPR

2.6 F_Score

>Fβ的物理意义就是将正确率和召回率的一种加权平均，在合并的过程中，召回率的权重是正确率的β倍。

F1分数认为召回率和正确率同等重要，F2分数认为召回率的重要程度是正确率的2倍，而F0.5分数认为召回率的重要程度是正确率的一半。比较常用的是F1分数（F1 Score），是统计学中用来衡量二分类模型精确度的一种指标。

F1_Score：数学定义为 F1分数（F1-Score），又称为平衡 F分数（Balanced Score），它被定义为正确率和召回率的调和平均数。在 β=1 的情况，F1-Score的值是从0到1的，1是最好，0是最差。

因此我们知道，计算Precision，Recall，Specificity等只是计算某一分类的特性，而Accuracy和F1-Score是判断分类模型总体的标准。

ROC 曲线

横坐标 ：1-Specificity，伪正类率(False positive rate，FPR)，预测为正但实际为负的样本占所有负例样本的比例。

纵坐标： Sensitivity，真正类率(True positive rate，TPR)，预测为正且实际为正的样本占所有正例样本的比例。

在一个二分类模型中，假设采用逻辑回归分类器，其给出针对每个实例为正类的概率，那么通过设定一个阈值如0.6，概率大于等于0.6的为正类，小于0.6的为负类。对应的就可以算出一组(FPR,TPR)，在平面中得到对应坐标点。随着阈值的逐渐减小，越来越多的实例被划分为正类，但是这些正类中同样也掺杂着真正的负实例，即TPR和FPR会同时增大。阈值最大时，对应坐标点为(0,0)，阈值最小时，对应坐标点(1,1)。

如下面这幅图，(a)图中实线为ROC曲线，线上每个点对应一个阈值。

① 理想情况下，TPR应该接近1，FPR应该接近0。ROC曲线上的每一个点对应于一个threshold，对于一个分类器，每个threshold下会有一个TPR和FPR。比如Threshold最大时，TP=FP=0，对应于原点；Threshold最小时，TN=FN=0，对应于右上角的点(1,1)。

② P和N得分不作为特征间距离d的一个函数，随着阈值theta增加，TP和FP都增加。

3.1 如何画ROC曲线

对于一个特定的分类器和测试数据集，显然只能得到一个分类结果，即一组FPR和TPR结果，而要得到一个曲线，我们实际上需要一系列FPR和TPR的值，这又是如何得到的呢？我们先来看一下Wikipedia上对ROC曲线的定义：

In signal detection theory, a receiver operating zxdgz (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

问题在于"as its discrimination threashold is varied"。如何理解这里的"discrimination threashold"呢？我们忽略了分类器的一个重要功能"概率输出"，即表示分类器认为某个样本具有多大的概率属于正样本（或负样本）。通过更深入地了解各个分类器的内部机理，我们总能想办法得到一种概率输出。通常来说，是将一个实数范围通过某个变换映射到(0,1)区间。

假如我们已经得到了所有样本的概率输出（属于正样本的概率），现在的问题是如何改变"discrimination threashold"？我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例，图中共有20个测试样本，"Class"一栏表示每个测试样本真正的标签（p表示正样本，n表示负样本），"Score"表示每个测试样本属于正样本的概率。
接下来，我们从高到低，依次将"Score"值作为阈值threshold，当测试样本属于正样本的概率大于或等于这个threshold时，我们认为它为正样本，否则为负样本。举例来说，对于图中的第4个样本，其"Score"值为0.6，那么样本1，2，3，4都被认为是正样本，因为它们的"Score"值都大于等于0.6，而其他样本则都认为是负样本。每次选取一个不同的threshold，我们就可以得到一组FPR和TPR，即ROC曲线上的一点。这样一来，我们一共得到了20组FPR和TPR的值，将它们画在ROC曲线的结果如下图：

当我们将threshold设置为1和0时，分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来，就得到了ROC曲线。当threshold取值越多，ROC曲线越平滑。

其实，我们并不一定要得到每个测试样本是正样本的概率值，只要得到这个分类器对该测试样本的"评分值"即可（评分值并不一定在(0,1)区间）。评分越高，表示分类器越肯定地认为这个测试样本是正样本，而且同时使用各个评分值作为threshold。我认为将评分值转化为概率更易于理解一些。

4 AUC 4.1 AUC 值的计算

AUC (Area Under Curve) 被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。

AUC的计算有两种方式，梯形法和ROC AUCH法，都是以逼近法求近似值，具体见wikipedia。

4.2 AUC 意味着什么

那么AUC值的含义是什么呢？根据(Fawcett, 2006)，AUC的值的含义是：

The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.

这句话有些绕，我尝试解释一下：首先AUC值是一个概率值，rqdyd随机挑选一个正样本以及一个负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然，AUC值越大，当前的分类算法越有可能将正样本排在负样本前面，即能够更好的分类。

从AUC判断分类器（预测模型）优劣的标准：

AUC = 1，是完美分类器，采用这个预测模型时，存在至少一个阈值能得出完美预测。绝大多数预测的场合，不存在完美分类器。

0.5< AUC <1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。

AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC <0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

4.3 三种 AUC 值示例：
简单说：AUC值越大的分类器，正确率越高。

为什么使用 ROC 曲线

既然已经这么多评价标准，为什么还要使用ROC和AUC呢？因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象，即负样本比正样本多很多(或者相反)，而且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和Precision-Recall曲线的对比：

标准，为什么还要使用ROC和AUC呢？因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象，即负样本比正样本多很多(或者相反)，而且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和Precision-Recall曲线的对比：

在上图中，(a)和©为ROC曲线，(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果，©和(d)是将测试集中负样本的数量增加到原来的10倍后，分类器的结果。可以明显的看出，ROC曲线基本保持原貌，而Precision-Recall曲线则变化较大。