查准率与查全率,查准率和查全率例题

错误率精度查准率查全率

笔者刚开始学习ML DL,对于分类任务中的几个性能度量指标，之前一直有点绕，今天看西瓜书时才明白，尤其是对于查准率与查全率部分，然后记录下来预防后期自己忘掉。

错误率与精度

首先对于错误率很好理解，就是分类错误的样本数占总样本数的比例，假设你有N个样本，其中有F个样本被错误分类，那么错误率:

p = F/N -------错误率

于此对应的正确率也就是精度为：

acc = 1 -p

其实对于错误率与精度的概念还是很好理解的，这与我们日常中了解的概念没啥区别，接下来就是对于查准率（准确率）以及查全率（召回率）的理解了。

查准率与查全率

我们以二分类问题为例，上文提到的精度的概念是有多少样本被分为了正样本，而我们更想知道的是被分为正样本的数据是否真的全部为正样本呢？其中是否有被错误判别为正样本的数据呢？因此这时单用上述的错误率与精度就很难对此进行评价。
对于二分类问题，可将样本根据其真实类别和学习器预测类别的组合划分为真正例（TP）、假正例（FP）、真反例（TN）、假反例（FN）则显然有：

TP+FP+TN+FN = 样例总数

分类结果混淆矩阵：

真实情况/预测情况正例反例正例TP（真正例）FN（假反例）反例FP（假正例）TN（真反例）

首先给出两者的定义：
查准率P：
P = T P T P + F P P = dfrac{TP}{TP+FP} P=TP+FPTP
查全率R:
R = T P T P + F N R = dfrac{TP}{TP+FN} R=TP+FNTP

查准率顾名思义，要点在与“准”,也就是你分类中的结果，其中正确分类的比例是多少，查全率的重点在于“全”,也就是说你你当前分出的类别，是否在总样本中还有剩余，检测出的样本占这一类别样本的总数的比例是多少，这两者一般而言是一个矛盾体，也就是随这R的增加P会下降，但是在一些简单分类任务中，如果你的分类器识别效果特别棒，那么也会出现随着R的增加P会保持一定的高精度值。

我们以经典的西瓜案例子进行讲解,话说会撒娇的网络的导师今天闲来无事，给了会撒娇的网络一堆西瓜，西瓜有好有坏：

a.现在会撒娇的网络的导师对会撒娇的网络说：你给我把好瓜挑出来送到办公室，如果最后给我的瓜里有坏瓜，那么这个月的补贴就由100变为50（都是金钱）。这种情况下，会撒娇的网络会怎么做呢，那肯定是把那种看起来百分百像好瓜的西瓜都挑选出来给boss，而这时那种看起来坏掉但是实际是好瓜的的西瓜可能就会被略掉，次时我们的查准率P就会很高，因为我们的查准率公式中此时的FP基本会很小很小，为了50块会撒娇的网络真是宁缺勿滥，也就是说查准率P很高的情况下我们会漏检一部分目标，而此时我们的查全率R自然会较小（对照公式很容易明白）。

b.第二天，会撒娇的网络的老师换了要求（可能回家后pgdg发现太浪费），说你把好瓜尽可能都给我挑出来，要是挑完以后我发现剩余的瓜里还有好瓜，我就给你扣工资，此时的会撒娇的网络又会怎么做呢？自然这次的会撒娇的网络看到像好瓜的他就挑出来，这样才能尽可能的保证把所有的好瓜都挑出来。（其实会撒娇的网络如果把所有的瓜都给了导师，那么此时的我们的查全率R就是100%了，因为眼前的这所有的瓜中一定会包含所有的好瓜，自然而然这时有些坏瓜也被认为了好瓜，自然而然此时的查准率P就会很低。）

总的来说几个字概括：
查准率高时是漏检率高，误检率低；查全率高时是漏检率低，误检率高

结合上边的小趣味以及公式，我相信查准率以及查全率的概念会很容易搞懂笔者比较笨，所以写下来预防自己后期忘掉！！别喷我我第一次写博客太能哔哔了溜了溜了~~