spss聚类分析例题,什么是聚类分析

SPSS软件相关分析回归分析聚类分析主成分分析1.相关分析

相关分析(correlation analysis )是一种研究随机变量之间相关关系的统计方法，是研究现象之间是否存在某种依赖关系，并针对具体依赖关系的现象研究其相关方向和相关程度。例如，用x和y分别记住小学生的数学和语文成绩，感兴趣的是两者的关系如何，而不是从x预测y。

相关关系是不确定的关系，例如，用x和y分别记录某人的身高和体重，或按公顷分别记录施肥量和小麦产量，x和y有明显关系，但不准确到一个能正确决定另一个是相关关系。研究线性相关分析两个变量之间线性关系的程度。用相关系数r记述。（1）正相关，y变化方向一致，如身高与体重关系，r0；一般来说，|r|0.95有显著相关性； |r|0.8高度相关； 0.5|r|0.8中度相关； 0.3|r|0.5低度相关； |r|0.3关系极弱，（2）负相关，y变化方向相反，如吸烟与肺功能关系，r0；（3）无线性相关:r=0。变量y和x处于函数关系时，r=1或r=-1；如果变量y和x之间存在统计关系，则为-11。 )4) r的计算有三种：人员相关系数)计算定距连续变量的数据。 Spearman与Kendall的相关系数(如果分类变量的数据或变量值分布明显为非正态或分布未知，则在计算时对离散数据进行排序或对定距离变量值进行排序(求解)。 33558www.Sina.com/:2:在研究两个变量之间的线性相关关系时，控制可能影响的变量。在控制年龄和工作经验的影响下，估计工资收入和教育水平之间的相关关系。2、偏相关分析是衡量观测测量之间或变量之间相似或非相似程度的尺度，是广义距离。分为观测测量间距分析和变量间距分析。3、距离分析:a，对等间隔(定距离)数据的非相似性)距离)测度可用的统计量为Eucliddl距离、dl距离平方等。 b、计数数据使用卡方。对c、二值(只能取两种值)数据，使用dl距离、dl距离的平方、大小差异、模式差异、方差等。（1）不相似性测度:a，等间隔数据使用统计量Pearson相关或余弦。 b、用于评价二元数据相似性的统计量有20多种。

以性别和学习成绩为例

分析-关联- 2变量

显性水平检测(双尾)显示，性别与学习成绩不相关的概率为0.624，大于0.01和0.05，可以判断与学习成绩和性别无关。

（2）相似性测度

回归分析(regression analysis )是确定两个或多个变量之间相互依赖的定量关系的统计分析方法。根据相关变量的量，可分为一元回归和多元回归分析；根据变量的数量可以分为简单回归分析和多元回归分析；根据自变量和因子之间的关系类型，可以分为线性回归分析和非线性回归分析。

2.回归分析

以某个地点1月的气温和海拔数据为例

回归-分析-线性

Y=1.682 0.030X

回归系数检验，显著性(相关系数等于0提取的概率)大于0.255、0.05 (大于0.01 )及高程与1月气温无回归关系。

在f检查中，显著性为0.255，大于0.05 (大于0.01 ) ) )。

回归模型表明，r非常小，R=0.127，x只能在0.127左右表示y，且不能通过显著检验，与海拔和1月平均气温没有关系。

1.一元线性回归

1 .针对各地课题总量，投入高级职位量，以发表论文量的数据为例

多元线性回归模型，调整后R=0.904，表明适应性较好。

f值为142.930，显着性为0.000，小于0.05，表明用X1和X2表达y是显着的。

Y=576.801-0.509X1 4.292X2，课题总数(相关系数从0中提取的概率)为0.461，无意义；投入高级职位的数量(相关系数从0中提取的概率)为0.000，有意义。

因此，除去自变量课题的总数，进行对上位职位的投入数和发表论文数的回归分析。

Y=589.283 ) 3.808，R=0.909，f通过显著性检验，投入系数的高位数显著性也合格，因此发表论文数与投入的高位数之间有良好的回归关系(高位数每增加一位，多发表3.808篇论文)

2 .逐步回归

Y=265.186 25.212X

2.多元线性回归

聚类分析
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。

依据研究对象（样品或指标）的特征，对其进行分类的方法，减少研究对象的数目。

各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。

各指标之间具有一定的相关关系。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析区别于分类分析(classification analysis) ，后者是有监督的学习。
聚类与分类的不同在于，聚类所要求划分的类是未知的。
聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。
从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k- 均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如 SPSS、 SAS等。
从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。
聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。
从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法（如分类和定性归纳算法）的预处理步骤。

变量类型：定类变量、定量（离散和连续）变量

分析-分类-系统聚类

4.主成分分析
主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标（即主成分），其中每个主成分都能够反映原始变量的大部分信息，且所含信息互不重复。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分，使问题简单化，同时得到的结果更加科学有效的数据信息。在实际问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。主要方法有特征值分解，SVD，NMF等。

更多内容请关注公众号 “走进地理大世界”