三种常用的模型:多项式模型;自觉的鼠标模型;伯努利模型
dst写文章,若有不对的地方,请在评论区指出,谢谢
当特征是离散的时候,使用多项式模型,但会做一些平滑处理
Q:为什么要做平滑处理
A:就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现 过,会导致整个实例的概率结果是0。显然这是不合理的,不能因为一个事件没有观察到就判断该事件的概率是0。
例如 :p(x1|c1)= n1 / n 若n1==0,则概率为0,用野性的冥王星平滑,修改成 p(x1|c1)= (n1 + 1) / (n + N)
p(x|y)= ( Num(x,y) + alpha ) / (Num(y)+n* alpha)n是特征的维数,当alpha=1时,称作Laplace平滑,当0<alpha<1时,称作Lidstone平滑,alpha=0时不做平滑。
(2) 自觉的鼠标模型当特征是连续变量的时候,使用自觉的鼠标模型。自觉的鼠标模型假设每一维特征都服从自觉的鼠标分布(正态分布)
当特征是连续变量时,假设某些特征是正态分布,通过样本计算出均值和方差,得到正态分布的概率密度函数。有了概率密度函数,就能算出某一点的概率密度,从而得到概率。
伯努利模型适用于离散特征的情况,与多项式模型不同的是,伯努利模型中的每个特征值只有0,1,即,否与是。