数学建模统计分析模型案例,统计学建模实例

文章目录一、引述1.概念2.何为两组变量呢？3. 本文主要内容二、典型相关分析1. 基本思路2. 基本思想3. 基本思路三、关键步骤（看不懂的话，可以先看四）四、使用SPSS进行典型相关分析1.导入数据2. 检验数据类型3. 对数据进行典型相关分析4.导出分析结果6.修改原文件中表格的名称五、对结果进行分析1.分析典型相关系数表2. 分析标准化典型相关系数3. 分析典型载荷4. 分析已解释的方差比例六、资料链接

一、引述 1.概念 典型相关分析用于研究两组变量（每组变量中都可能有多个指标）之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。在一元统计分析中，用相关系数来衡量两个随机变量之间的线性相关关系；用复相关系数研究一个随机变量和多个随机变量的线性相关关系。然而，这些统计方法在研究两组变量之间的相关关系时却无能为力。比如要研究生理指标与训练指标的关系，居民生活环境与健康状况的关系，人口统计变量（户主年龄、家庭年收入、户主受教育程度）与消费变量（每年去餐馆就餐的频率、每年出外看电影的频率）之间是否具有相关关系？阅读能力变量（阅读速度、阅读才能）与数学运算能力变量（数学运算速度、数学运算才能）**是否相关？这些多变量间的相关性如何分析？ 2.何为两组变量呢？

下图是测量的20名学生的生理指标与训练指标。第一组是生理指标变量，有体重、腰围和脉搏；第二组是训练指标变量，有引体向上次数、起坐次数和跳跃次数。要求测量生理指标与训练指标这两组变量之间的关系。

在本题中，如果我们直接对这些变量（诸如体重、胸围等变量）的相关性进行两两分析，很难得到题干所要求的测量生理指标与训练指标这两组变量之间的关系。所以，我们引入一种新的分析方法：典型相关分析。

3. 本文主要内容 本文主要目的在于介绍典型相关分析的基本思想和解题步骤以及讲解如何使用SPSS24.0解决该类数学建模问题。如果要进行论文写作，我们需要掌握典型相关分析的原理及方法。这一部分，我将在后面的专栏中结合相关获奖论文进行说明。二、典型相关分析 1. 基本思路在上例中，我们可以采用这样的解决思路：由于两组变量中都含有多个变量指标，每组变量中定然会有代表性的变量。这样，找到代表性的变量，我们便可以把 多个变量与多个变量之间的相关变成两个具有代表性的变量之间的相关 。代表性变量：能较为综合、全面的衡量所在组的内在规律。一组变量最简单的综合形式就是该组变量的线性组合。 2. 基本思想

典型相关分析由Hotelling提出，其基本思想和主成分分析非常相似。

首先在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数；然后选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对。如此继续下去，知道两组变量之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间的强度。 3. 基本思路

一般情况下，假设

是两个相互关联的随机变量，分别在两组变量中选取若干有代表性的综合变量Ui、Vi，使得每一个综合变量是原变量的线性组合，即

当然，综合变量的组数是不确定的，如果第一组就能代表原样本数据大部分的信息，那么一组就足够了。如果第一组反映的信息不够，我们就需要找第二组数据。

为了让所找到的第二组数据的信息更加有效，我们需要保证第二组数据和第一组数据不相关，即

对于数学的部分，我就不再过多阐述（无力.jpg）。感兴趣的同学可以自行查找资料。上面一点便是我们所要达到的终极目的。

三、关键步骤（看不懂的话，可以先看四） 假设我们所研究的两组数据服从联合正态分布。对这两组变量的相关性进行检验（构造似然比统计量）。 H0：两组变量的协差阵为0（两组变量无关）；H1：两组变量的协差阵不为0（两组变量有关）用于检验的似然比统计量
p值小于0.5（0.1）表示在95%（90%）的置信水平下拒绝原假设，即认为两组变量有关。 确定典型相关变量的个数（直接看典型相关系数对应的p值即可）利用标准化后的典型相关变量分析问题
为了消除量纲和数量级别的影响，必须对数据先做标准化变换处理，然后再做典型相关分析。进行典型载荷分析计算前r个典型变量对样本总方差的贡献 四、使用SPSS进行典型相关分析 1.导入数据

2. 检验数据类型

点击左下角的变量视图

3. 对数据进行典型相关分析

按照题干要求将变量进行分组（按住ctrl，可以进行多个选中）

之后便得到如下内容：

4.导出分析结果

于是我们便在桌面上得到了该文件。

6.修改原文件中表格的名称下面是刚打开的原文件表格名称
将文件中的表格进行重新命名，以免在后续的操作造成干扰。 将所有的集合1修改成生理指标，集合2修改成训练指标。修改表格名称：典型相关性 >>> 典型相关系数修改表格内容：相关性 >>> 相关系数；显著性 >>> p值

注：以上图片，便是我们在建模中经常使用的表格。 五、对结果进行分析 1.分析典型相关系数表

该表格的最后一列代表着检验统计量所对应的p值，我们需要通过它确定典型相关系数的个数。我们知道置信水平有三个：90%、95%、99%，其对应的显著性水平分别为 0.1、0.05、0.01.观察第一行的p值，我们发现 0.05 < 0.064 < 0.1. 因此，我们知道在95%的置信水平下，生理指标与训练指标之间不存在相关性；而在90%的置信水平下，生理指标与训练指标之间存在相关性，且第一对典型变量相关性显著。我们接着观察后面两个p值：0.949和0.775。说明第二对和第三对典型变量相关性不显著。由此我们可以确定典型相关系数的个数为1，即第一对典型变量的相关系数。 2. 分析标准化典型相关系数

在该分析中，我们需要写出标准化的典型变量，其个数要根据上一个分析结果所得到的典型相关系数的个数来确定。

在上一个分析结果中我们知道，我们知道我们只需要第一对典型变量的相关系数，因此我们可以将第二、三对的典型变量的相关系数删除。

由此，可得到的标准化的第一对典型变量：

其中，拉长的白开水(1)和Zj(2)分别为原始变量Xi和Yj标准化后的结果。

典型变量每个分量前面的系数代表着重要程度，可结合典型相关系数进行分析。

结论：

在生理指标中，由于X2（腰围）的绝对值最大，反映生理指标的典型变量主要由腰围决定；在训练指标中，由于Y2（起坐次数）的绝对值最大，说明训练指标的典型变量主要由起坐次数所决定。同时，由于两个典型变量中腰围和起坐次数的系数是异号的（腰围为负，起坐次数为正），反映腰围和起坐次数的负相关，即腰围越小则起坐次数越多。这和客观事实是相符的。 3. 分析典型载荷

说明：为了节省篇幅，在这里笔者只分析生理指标的典型载荷，读者可以模仿分析训练指标的典型载荷。

分析典型载荷的目的：进行典型载荷分析有助于更好解释分析已提取的p对典型变量。所谓的典型载荷分析是指原始变量与典型变量之间相关性分析。
分析结果
以上结果说明生理指标的第一典型变量与体重的相关系数为-0.621，与腰围的相关系数为-0.925，与脉搏的相关系数为0.333. 从另一方面说明生理指标的第一对典型变量与体重、腰围负相关，而与脉搏正相关。其中与腰围的相关性最强。生理指标的第一对典型变量主要反映了体型的胖瘦。 4. 分析已解释的方差比例分析目的
在进行样本典型相关分析时，我们也想了解每组变量提取出的典型变量所能解释的该组样本总方差的比例，从而定量测度典型变量所包含的原始信息量的大小。
数据说明（从左到右）生理指标被自身的典型变量解释的方差比例；生理指标被训练指标的典型变量解释的方差比例；训练指标被自身的典型变量解释的方差比例；训练指标被生理指标的典型变量解释的方差比例。分析结果生理指标样本方差由自身3个典型变量解释的方差比例分别为：第一典型变量解释的方差比例：0.451；第二典型变量解释的方差比例：0.246，第三典型变量解释的方差比例：0.302；训练指标样本方差由自身3个典型变量解释的方差比例分别为：第一典型变量解释的方差比例：0.408；第二典型变量解释的方差比例：0.434；第三典型变量解释的方差比例：0.157；六、资料链接资料内容：health.xlsx
链接：https://pan.baidu.com/s/1r3JujIEG3PCfc-K5WskAag
提取码：3exf