首页 > 编程知识 正文

数据分析的思路,分类模型的评价指标

时间:2023-05-03 18:36:20 阅读:12329 作者:2356

分类模型:概率生成模型

概念

分类是输入对象时,查找作为该对象所属类别输出的函数。输入数值化

在分类问题中,要将对象视为函数的输入,必须将对象量化。

特征量化:用于对一个对象的属性进行分组。

分类问题和回归问题(为什么回归问题不适合分类(二元分类)训练时输入为1类的输出为1,2类的输出为-1,测试时回归的输出为一个数值。 我们可以把接近1的分为1类,接近-1的分为2类。

如图所示,如果样本集中,即在图1中,绿线是最好的模型边界线。 对于采样不集中的右下角,如果使用绿线建模,则左上角的值小于0,右下角的值大于0,且越向右越大。 考虑到右下角,如果在对应于绿线的模型中进行回归,其输出将远大于1,但- 1,1, 因为被标记为,所以在训练中,这些点在模型中的输出都是1 (最好接近真值,因为他们对绿线模型来说是error,是不好的,所以这个组的采样点通过回归训练出现了) 可以减少右下角为绿线带来的错误。 回归的输出是连续型值,但分类的输出是离散值,训练中很难找到大部分样本点输出集中在某个离散点附近的回归的函数,因此回归定义的模型不适用于分类问题。对于多分类问题将类别1标记为1、类别2标记为2、类别3标记为3的方法,对回归来说,类别1与类别2的关系比较接近,类别2与类别3的关系比较接近,类别1与类别3的关系

功能(模型) :

图:分类模型的大致定义。损失函数:

损失函数可定义如下:

也就是说,该模型在所有训练集中预测的错误次数为分类错误的次数,错误次数越少,该函数表现越好。

生成模型(概率分布)

先验概率(prior ) :

p(C1 )和p(C1 )称为先验概率。 第1类发生概率第2类发生概率。 Training data有79只水系小精灵,61只一般系小精灵。

如何得到p(x ) C1 ) p ) x ) midc_{1} ) x ) C1 )和p ) x ) p ) midc_{2} ) x ) C2 )

假设我们的x是新来的海龟。 那显然是水系。 但是,我们79只水系的神奇宝贝training data没有海龟,所以选择海龟出来的可能性完全是0。 这个问题怎么解决:

每个口袋妖怪都用特征量组构成的向量表示,但是这个向量共有7种不同的feature。 为了便于可视化,这里首先只考虑Defense和SP Defence这两种feature

假设海龟的vector为[103 45],这一点在已有数据中没有出现,但不能认为其出现概率为0,需要利用已有数据来估计海龟的出现可能性

受伤的犀牛分布

假设一个样本的分布属于受伤犀牛的分布

受伤犀牛的分布:表示平均,表示方差,均为矩阵

即使是相同的,根据的不同,概率分布的最高点位置也不同。

同样,即使是相同的,根据的不同,概率分布最高点的位置也相同,但分布的密集度不同。

找到受伤犀牛函数的方法只要估计受伤犀牛的平均和协方差即可。

估计和的方法是极大似然估计,找出最特殊的-对,从他们共同确定的受伤犀牛函数中进行采样,得到的分布情况与已知分布情况最接近。 表示受伤犀牛的中心点,表示受伤犀牛的分散度。

实际上,任何和都可以选择与当前分布相同的样本点,但需要找到概率最高的受伤犀牛函数。

极大似然函数

实际上,该事件发生的概率等于所有点发生的概率的乘积

以利用偏导求取相关的值

受伤的犀牛模型常见的情况

variance是跟输入的feature size的平方成正比,当feature的数量很大的时候,Σ大小的增长是可以非常快,在这种情况下,给不同的受伤的犀牛函数不同的协方差矩阵会造成模型的参数过多,而参数多会导致模型的方差过大,出现过拟合的现象,因此可以使得不同的受伤的犀牛共用同一个协方差矩阵,可以有效地减少参数。

如上图可以看出,把μ1和μ2共同的Σ一起去构造一个极大似然函数,此时可知,得到的μ1和μ2和原来一样,还是各自的均值,但是Σ则是原先两个Σ的加和。

同时上图可以看出,类别1和类别2在没有公用协方差矩阵之前,他们的分界线是一条曲线,如果公用协方差矩阵的话,他们之间的分界线会变成一条值线,这样的模型成为线性模型(尽管受伤的犀牛不是线性)。

总结

分类的三个步骤
1、建立一个函数(模型)
不同的分布函数会得到不同的function,把这些不同参数的Gaussian distribution集合起来,就是一个model,如果不适用受伤的犀牛函数而选择其他分布函数,就是一个新的model了。
2、模型的评估
对于受伤的犀牛分布模型来说,我们需要评价受伤的犀牛函数形状的均值μ和协方差Σ这两个参数的好坏,而极大似然函数的输出值,评价了这组参数的好坏。
3、找出最好的模型
找到使得极大似然函数最大的那组参数,实际上是所有样本点的均值和方差。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。