贝叶斯估计例题详解,贝叶斯

一.估计

数理统计有两个基本内容，估计(参数估计；全分布等非参数估计(和假设验证) (选择原假设、假设)。参数估计有点估计和区间估计。点估计的判定都是根据经验风险来判定的，这里无论是频率学派还是贝叶斯学派都没有异议，但再往后走，两者的观点就会不同。两者在估算好坏时的标准、方法和意义不同。进行估算时，按照经验风险最小化标准进行。风险是通过参数(在线性模型中为截尾、回归系数)的真值与估计/预测值形成函数关系来判断的。

1、损失函数和风险函数

首先，使用参数的真值和估计的函数关系确定“损失函数”，

image.png

这个函数有很多种，一般和残差有关。例如，一般的平方损失函数是

image.png

损失函数在拟合曲线的对应点通过变量的估计值取真值时存在风险。风险函数被定义为损失函数的平均值

image.png……

这个函数在古典和贝叶斯统计中有不同的定义。在进行估计时，通过找出对所有观察值风险函数最小的估计值，将风险最小化。这是一致的最小风险估计。

2、频率数学派估计

通过经典统计进行点估计，我们希望估计的参数使公式最小，我们对估计量的好坏评价标准是不偏不倚、有效、一致的。目的是把想得到的参数带入模型/函数，把所有的真实输出值y和预测输出值y^hat(y上面戴帽子，学统计的时候老师读y 'cafu )，但是在其他地方看的话读y'hat ) 因此将参数风险最小化，映射到真实输出值y与预测输出值y￣hat的关系上。通常，使用残差(或加工残差，例如平方)或其他考虑方法。参数真值与预测值之差的平方平均值构成风险函数，寻找参数实现一致最小风险估计的要求。

image.png

为了实现上述目标，可以用与最小时间对应的参数求出残差的目标参数

image.png

也就是说，用我们常见的最幻想的乘方估计(OLS )方法进行估计，得到的是具体的点，这样得到的参数正好满足了一致的最小风险估计的要求。

3、贝叶斯学派的推断

在贝叶斯估计中，估计参数是根据一个分布的随机变量——先验/后验分布。因此，首先由于参数不是具体的值而是分布，所以用参数的所有可能值和损失函数相乘的累计值来记述损失是合理的

image.png

这就是贝叶斯学派对损失的看法，使上述公式最小的解就是贝叶斯解。

根据由上式得到的参数的事前风险，我们必须得到的是事后风险，除了事前风险之外，在被积式中加上f(x|)这个条件密度(接近似然函数)成为事后风险。

image.png

使公式最小的参数称为贝叶斯解。也就是说，是我们的点估计。公式中损失函数的构成方式一般有三种

image.png

因此，得到的贝叶斯解有三个不同的结果

image.png

因此，根据损失函数得到的点估计(贝叶斯解)不同。使公式最小的*hat为贝叶斯解。并符合不偏不倚、有效、一致的评价原则。

image.png

二.经典线性回归

对于多元线性回归，模型表示为

image.png

回归方程的截距〔常项〕，需要估计系数，用(0，1，…，n )表示。

根据随机扰动为Gauss——Markov的假设，经典回归在一致最小风险原则下通过均方误差

image.png

利用最小化、最幻想的乘方估计计算y和y ^ hat计算确定的参数，形成拟合直线。

三.贝叶斯线性回归

1、线性模型及整体参数(，)形成的联合分布

多元线性回归模型是由以x为首的m个自变量的n个可取值构成的n*(m1 )矩阵，y是对应的n组观测值的因子，用矩阵方程式表示可以记述如下。

image.png

……、通过对上述模型最幻想的乘方估计(OLS )估计参数)0，1，……，n

在公式中可以看出，实际上是随机打乱了(截距和系数)这两种随机变量，以及中的标准差。于是总体就关于参数(，)的“联合分布”

！而给定的观察值则是 X矩阵和 Y向量。过程是先得到 (β，σ) 的先验分布，然后再得到他们的后验分布，最后在后验分布中通过贝叶斯解得到点估计。

image.png

从著名的贝叶斯公式中可以看到，把先验分布、似然函数和边际分布找出来就可以得到后验分布。下面分别说明这三个部分。

2、确定来自于总体的似然函数

在多元线性模型中，根据 gauss-Markov 假定，可知随机扰动向量的分布

image.png

带入③可得总体服从mtdxx分布，

image.png

(β，σ) 联合分布的似然函数是正态分布核的连乘

image.png

3、参数(β，σ)联合先验分布和后验分布

对 (β，σ)的先验分布采用无信息先验分布假设，按照 Jefferys 准则最后可以得到(β，σ)的联合先验分布

image.png

……④

将其和似然函数带入 ③ 中，是关于β，σ 的函数

image.png

4、回归系数的贝叶斯统计

在参数(β，σ)的联合后验分布中，对σ 进行积分，得到 β 的后验边缘密度函数，公式中有 t 分布的核，因此根据共轭先验设定，后验分布也是 t 分布。在向量损失函数下，参数的贝叶斯估计为

image.png

5、随机扰动方差 σ^2 的贝叶斯统计

在参数(β，σ)的联合后验分布中，对β 进行积分，得到 σ 的后验边缘密度函数，进而得到 σ2 的后验边缘密度函数，

image.png

其表达式为倒 Gamma 分布密度函数的核，因此在平方损失函数下，σ2 的贝叶斯估计为

image.png

比经典统计的估计在分母上少 1 。

三、经典回归和贝叶斯回归的关系

经典统计回归拟合出的是一条直线。

贝叶斯统计中，因为(β，σ)的联合后验参数服从某种分布，因此估计的参数取值有很多，表现为一系列直线(不是一条！)，但是哪一条直线是最佳拟合，即哪一组β(向量)才是最合适的。就需要对有后验分布求贝叶斯解。贝叶斯点估计与损失函数类型(一般有三种)和先验分布都相关，因此，我们在进行贝叶斯回归时，对于后验参数分布的计算，除了要考虑共轭先验分布外，还要考虑损失函数类型，这对于有哑变量(取值只有0，1)时，是一个现实的需求。因此一定要小心。

求贝叶斯解时，在贝叶斯公式中，有先验分布和似然函数。后者假设总体服从正态分布，在均方误条件下，得到的方程截距和系数参数与经典统计下OLS一样，但二者有本质差别。经典统计得到的是一个确定的值，贝叶斯统计得到的是一个分布。

当数据量很大时，贝叶斯统计估计的一系列直线逐渐趋于重合，极限是经典统计估计的那条线。从贝叶斯公式中也好理解理，数据量大时，似然函数影响越来越大，先验分布的影响也越来越小。