泊松重建算法

需要泊松回归的原因

对因变量是离散型变量的问题建模时，普通的线性回归模型、定序回归模型和逻辑回归模型已经能解决我们大部分的需求。但有一类特殊的因变量记录某个特定事件出现的次数（有序的非负整数），它们被称之为“计数数据”。如果我们按照普通的线性回归模型建模：

虽然等号两边都是具有数值意义的实数，但是等号右边可以是任意连续值，但是等号左边只能是非负实数（计数数据）。因此普通的线性回归模型是无法对计数数据建模的。

泊松回归的假设&模型建立

为了拟合计数数据，我们可以根据泊松分布做出如下假设：

任意相等时间间隔内，事件的平均出现次数是固定的任给的两次等待时间是否发生事件是相互独立的

根据如上假设，我们可以设定事件在单位时间内发生次的概率为：

其中表示单位时间内事件发生次数的期望。

注意虽然单位时间内事件发生次数只能是非负整数，但是期望却可以是小数。

因为是连续的，因此我们可以直接考虑自变量和之间的关系，另外考虑到是非负实数，我们可以建立线性回归模型：

参数估计

假设是第个样本的观测，其中表示自变量向量，表示因变量（即样本在单位时间内出现的次数）。根据假定的模型，我们可以得到该样本的概率为：

根据所有样本，我们计算出整个样本集的似然函数：

其中表示参数向量，取对数后得到表达式：

对“对数似然函数”求极值后我们可以得到参数估计值，记为

检验统计量

泊松回归模型中的真实分布是未知的，但是基于中心极限定理，将近似服从正态分布：

因此只要我们能准确地估计的标准差，我们就可以构造如下检验统计量对各个自变量的显著性进行检验：

在原假设成立的情况下，该检验统计量近似服从标准正态分布。因此对于给定的显著性水平如，我们可以根据的绝对值是否大于来决定是否拒绝原假设。

如果需要检验模型的整体显著性水平，我们可以使用似然比检验，其统计量为：

这里乘上系数主要是方便构造具有特殊分布的检验统计量，属于统计推断中的常见做法。

其中表示长度为自变量系数向量。当原假设成立且样本量足够大时近似服从自由度为的卡方分布，自此我们即可完成模型整体显著性水平的检验。