为什么要进行拟合优度检验,python实例

数据分析中，对于定类变量和低测度的定序变量，通常不能用均值、t检验、方差分析等方法进行处理。对于不符合正态分布的分级数据和低测度排序数据，其检测方法采用交叉表技术分行列计算交叉口频数，采用卡方距离进行卡方检测，根据频数和数据分布形态分析不同类别数据是否存在显著性差异。分级数据的比较检查也称为独立性检查。

低测度数据

关于类判定变量，其数值的大小和顺序没有什么意义，对于类判定变量和低测度的类判定变量，平均值和方差值无法描述变量的特征，所以无法分析平均值和方差值等参数来进行数据分析。在进行统计分析时，对于这样的变量通常需要利用中央值、频数、百分比以及不同的分布状况来实现数据的记述。对低测度数据，比较典型的研究是结构成分研究，实际上是根据频数分析数据分布形态，进而发现数据分布差异的检验。

拟合与拟合优势

由于低测度数据的特点，直接进行基于均值的检测显然是不可能的，因此人们利用数学模型提出了拟合的概念。拟合是分析现有观测变量的分布形态，检查其分布是否符合某一期望分布(或标准分布)。在数学上，拟合的过程是寻找使当前数据序列变得温和的数学模型的过程。为了评价拟合的程度，提出了一种确定拟合有效性的机制，这是拟合的优势。拟合度也通过验证概率的概念来评价数据拟合的质量。

目前处理低测度数据序列最常见的分析方法是卡方检验。特别是基于交叉表的卡方检验在数据分析中具有重要的地位，它们都是基于拟合的概念。此外，二元分布、游程长度检验等单样本检验也被认为是数据拟合的重要应用。同时，分布形态对定距离或定序变量的判定也是数据拟合的应用之一，在分布形态判定过程中得到的检验概率是该序列与标准分布形态的拟合。

卡方检验

卡方检验的目标是检测观测值频数与期望频数的差异显著。由于卡方检验要求便于对案例进行分类计算频数，卡方检验通常基于分类数据或低测度排序数据，并基于这些分类计算案例的实际频数，根据实际频数与期望频数之间的距离，判定实际频数是否与期望目标不同

卡方距离

卡方检验的目标是检验测度数与期望频数的差异水平，因此卡方检验的核心内容是计算观测值频数与期望频数的总体差异统计量，即卡方距离。该距离可以用"观测值度数与期待度数之差平方与期待频率之比的累积和"来表示：

卡方值越大，距离越大表示差异越强。从卡方检验表导出卡方检验的概率值，可以根据概率值判定卡方检验的判断结果。

卡片检验的两种应用

卡片检查有两个基本应用。其一，验证预期分布与实际观测值的差异。其二，基于交叉表验证两个低测度变量分别在不同要素级的卡方距离，实现两个低测度变量的相关性(独立性)验证。

期望分布的卡方检验

对于低测度变量，从总体中提取一些样本，就构成了k个互不相交的子集。这k个子集的观测度数应服从一个多项分布。当k无限走向时，该分布应该接近整体分布规律。

因此，变量x的整体分布可以从观察各频带中的样本频数开始。通过观察各频带中样本的频数分布，可以掌握样本的分布形态。另外，将这些与预期值的差进行比较，可以掌握变量x是否与预期分布有显着差异。

检查观测值和期望值在频数下的拟合优度的检查，也常常被称为卡方拟合优度检查。例如，现在统计2013年的招生情况，掌握2013年学校各省的招生人数。 2015年招生刚刚完成，获得全体新生的基本信息后，需要分析2015年招生情况与2013年各省招生情况是否有显著差异。为此，有必要通过计算机自动计算出2015年的分省招生案例数，并采用卡片形式计算出2015年的分省学生数和2013年的分省学生数的卡片值，判定两者是否存在显著差异。

基于中小学检验的分布形态判断就是这样的使用方法。 SPSS中，通常用K-S算法进行单样本分布形态的判定，可以对序列进行正态分布，即正态分布、均匀分布，即均匀分布、泊松分布、指数分布等分布形态的判定。

基于交叉表的卡片侧检验

分析交叉表中行变量与列变量的关系是交叉分组下频数分析的重要任务，将低测度的顺序变量(或类变量)交叉分组计算频数后，行变量与列变量之间是否有关系，或者基于某变量的不同水平基于这一想法，可以获得更深层次的信息，如两个变量之间是否存在一定的相关性、关联的密度等。例如，一家公司统计超市不同地方的点心产品销售量，构建交叉表。

从上表来看，沿“左上-右下”对角线方向，数据量较大，表明不同产品种类的销售量与展示位置之间有一定的相关性。

许多交叉表数据，如上表所示，很难轻易看出其中的内在关系。必须采用数据分析的专业手段计算交叉表中的频数，获取其卡方值和检查概率，并以检查概率值为基准得出检查结论。对交叉表的统计分析，卡方检验统计量采用人员卡方统计量标准，其数学表达式如下：

交叉表卡方检验获得交叉表后，可以

根据卡方计算公式计算出整个交叉表的卡方值，然后依据卡方值查相应的统计表，得到此卡方值的检验概率值，进而判断两变量是否相互独立，没有任何关联。

游程检验与随机分布

游程是指在变量序列当中，连续出现相同的值的次数。对于序列“111222223331123333”可以认为有6个游程，依次为“111”、“22222”、“333”、“11”、“2”和“3333”。

游程检验的思路与用途

游程检验是指依据某种规则对数据序列中的个案分组，并记录每个个案的组好；然后，对数据序列按照升序排序，把得到的组号排列起来就构成一个游程序列。对于一个数据序列，如果游程个数达到一定的规模，就认为序列的分布是随机分布。游程检验的目标是检验两种样本的分布是否具有随机性，游程的价值就是判别分布规律的随机程度。

单样本变量值的随机测验中，利用游程数构造检验统计量，分析这个统计量的分布情况，从而能够反映样本所代表的总体的分布是否满足随机性。单样本变量值的随机性检验中，SPSS将利用游程构造Z统计量，并依据正态分布表给出对于的相伴概率值。如果相伴概率值大于显著性水平，则不能拒绝零假设，认为变量值的出现是随机的。

二项分布检验

在现实生活中，很多变量的取值只有两种状态，被称之为二分变量或二项变量。比如，人类性别的取值是男或女，职位应聘结果为成功或失败，投掷硬币的实验结果可以是正面或者反面。凡是只有两种取值状态的变量，都被称为二值变量。对这种变量来说，如果随机变量X的取值为1的概率为p，那么X取值为0的概率为1-p。如果让上述变量出现n次并把其取值记录下来，就构成一个数据序列，这个序列所服从的分布被称为二项分布。

二项分布检验正是通过检查样本数据的形态来验证总体数据是否符合二项分布，其零假设是样本来自的总体与预设的二项分布没有显著差异。二项分布检验，对于小样本数据应该采用精确检验方法，而对大样本数据则主要采用近似检验方法。

二项分布检验的应用

二项分布检验主要用于判断某种观点是否正确，通常用在基于样品的产品总体合格率检验、或对基于部分学生成绩估算出全体学生及格百分比实施判断。比如，在高考中，总体样本3百万名，在评阅了10000名考生的试卷后，可以做出初步预测：600分以上的学生占10%，那么就可以借助二项分布，检验600分以下的学生占90%的可能性有多大。若这种可能性很大，就可以认为600分以上的学生占10%，否则，则不可以做出此结论。

以产品合格率检验为例，如果需要通过抽样判断产品合格率是否达到90%，其基本思路是：可先假设产品的合格率在90%左右，然后以产品合格作为分割点，把所有样品分为两种状态，判断产品合格率在90%左右的可能性有多大。实施二项分布检验后，若检验合格率>0.05，则接受零假设，认为产品的总体合格率应在90%左右。