1 )最大似然估计MLE
假设给定一堆数据,已知从某个分布中随机提取,但不知道该分布的具体参数,即“模型确定且参数未知”。 例如,我们知道这个分布是正态分布,但不知道均值和方差; 或者是二元分布,但不知道平均值。 最大似然估计(MLE,Maximum Likelihood Estimation )可用于估计模型参数。 MLE的目标是找到一组参数,使模型生成观测数据的概率最大化。
其中
似然函数,由参数表示
出现观测数据的概率。 假设各个观测数据是独立的,则有
为了便于寻求指导,一般对目标取log。 因此,优化对数似然函数就等于优化对数似然函数。
举个扔硬币的简单例子吧。 现在有正反面不太一致的硬币。 假设表朝上为h,面朝上为t,投10次的结果如下。
这枚硬币面向正面的概率是多少?
很明显,这个概率是0.2。 现在,我们用MLE的思想解决它。 我知道每次扔硬币都是一次二项分布。 正面朝上的概率是
似然函数如下:
x=1表示正面朝上,x=0表示面朝上。 那么,有:
寻求指南:
导数为0很容易得到:
也就是说0.2。
2 )最大后验概率图
以上MLE表示使似然函数最大化的一组参数,即。 问题有点复杂,但是如果这个参数是
有先验概率吗? 例如,上面扔硬币的例子,但根据我们的经验,硬币一般是均匀的,也就是说
=0.5的可能性最高,
=0.2的可能性很低,但参数该怎么估计呢? 这就是MAP考虑的问题。 MAP优化是在给定观测值后
概率最高:
基于贝叶斯公式展开上式:
知道第一个项目
似然函数,第二项
参数的先验知识。 拿到日志后:
回到刚才扔硬币的例子,假设参数
有服从贝塔分布的先验估计。 也就是说:
每次扔硬币时落后的棉花糖遵循两个分布:
那么,目标函数的导数如下。
寻求指导的第一项已经在上面的MLE中给出,第二项如下。
设导数为0,求出如下。
其中,
表示正面朝上的次数。 在这里可以看到,MLE和MAP的区别在于MAP的结果中先验分布的参数很多。
补充知识:贝塔分布
Beat分布是一种常见的先验分布,其形状由两个参数控制,定义域为[ 0,1 ]
贝塔分布的最大值为x相等
点击
所以扔硬币的时候,如果事先知道硬币是均匀的,就让。 但是,即使明显它们相等,这两个值也会对最终结果产生很大的影响。 这两个值越大,表示偏离均匀的可能性越低。