数据挖掘聚类分析实验报告,聚类分析案例数据

一、实验项目名称：聚类分析方法

二、实验目的和要求：在软件方面：用Clementine软件进行聚类分析。

在理论方面，聚类分析及其常用的聚类分析方法，数据挖掘中的聚类分析。

三、实验原理： 1、聚类分析方法

聚类分析是数据分析中的关键技术，其应用极为广泛。许多领域都涉及聚类分析方法的应用和研究。在诸如科学数据检测、信息检索、文本挖掘、空间数据库分析、Web数据分析、客户关系管理、医学诊断、生物学等数据挖掘APP应用中，聚类分析技术起着重要的作用。在商业领域，聚类有助于市场分析人员从消费者数据库中对不同的消费群体进行分类，总结各自消费者的消费模式和习惯，发现不同类型的顾客群体，对具有相似功能的基因进行分类，了解种群的内在结构。集群还可以用于从地理数据库中识别土地用途相似的区域。从一个城市的房地产信息数据库中，根据户型、房价和地理位置将房地产分为不同种类，在保险公司的数据库中可以发现汽车保险中索赔概率较高的群体

我们主要谈论的方法有谱系聚类、快速聚类和两阶段聚类。

2、聚类分析方法的应用

聚类在《红楼梦》作者问题中的应用

你知道，《红楼梦》这本书共有120次。自从纯情电灯制造《红楼梦考证》以来，前80次被认为是zjdwg写的，后40次被认为是壮实的红牛。但是，长期以来，这一看法一直备受争议。能否统计论证，从1985年开始，复旦大学一位爱玩的小猫教授带领学生做了这项有意义的工作。他们的创意是将120次视为120个样本，以与故事无关的虚词出现次数为变量，巧妙运用数理统计分析方法，找出哪一次出自同一个人之手。每个人使用特定语言的习惯被认为是特有的。因此，在pgddqd中，将各次47个虚词(之、之、或者亦…、啊、啊、啊、啊、啊、啊、啊、啊、啊、啊、啊、啊、啊、啊、啊、啊、啊、啊、的出现次数)频率，设为第《红楼梦》次的各数字标记。之所以要舍弃情节，一般来说，相同的情节都是描写得差不多的，但根据个人文章的特点和习惯，所用的虚词并不相同。用多元分析的聚类分析法进行聚类，仍然可以形象地证明120次分为前80次一类，后40次一类，不是出自同一个人之手。之后，再分析前80次是否是用zjdwg写的，寻找zjdwg的另一部着作，进行同样的计算，结果证实措辞完全相同，前80次被判定为zjdwg的一个人的手笔，是因为他还有40次是不是健壮的红牛写的。论证结果推翻了40次不是壮实的红牛一个人写的，而是zjdwg挚友总结了其草稿，丰富的茉莉花故事是为一个人写的，嘉府衰落的样子是为别人写的等等。这一论证在红学界引起极大关注，pgddqd等人用多元统计分析方法支持红学界观点，红学界予以大力赞誉[11]。

聚类分析顾名思义，就是按照一定的标准对样品进行分类。标准(即统计量)是，即使续作者有意模仿作者的写法，也无法模仿惯有的发箍，而且对于虚词的使用很难保持一致性。 pgddqd的工作是证明前八十次和后四十次在虚词的使用上是完全不同的。石头记与风月宝鉴对比采用因子分析的方法。一次47个虚词以不同的次数出现120次，由此构成47*120的矩阵。 pgddqd用统计软件SPSS分析了这个大型矩阵，结果非常可靠。这是一种完全没有客观主观色彩的方法，因为它只能从文本中获得。光是这样，就比一些荒唐的红学家强了100倍。

四、实验方案设计：数据源背景分析；选择聚类方法；分析聚类结果。

五.测试数据和实验结果测试数据1 :谱系聚类

中国男足可以说是杯赛到家了。过街老鼠到了每个人都喊的地方。目前，对于中国男足在亚洲的地位，各方也各有各的说法。有人说中国男足是亚洲的二流，有人是三流，有人完全流动，有的实际上不比日韩差多少，是亚洲的一流。既然争论不能解决问题，就请告诉我数据的结果吧。下图收集了2005年至-2010年亚洲15支大型杯赛的战绩。 (澳大利亚后来加入了亚足联，所以这里没有收录。

其中包括两届世界杯和一届亚洲杯。事先对数据进行了以下预处理。对于世界杯，进入决赛后将获得其最终排名，未进入决赛的将进入预赛10强给予40，预赛组未进入则给予50。亚洲杯方面，前四名获得了排名，前八名是5，前十六名是9，未能参加预选的是17。这是为了使所有数据成为标量，便于后续的聚类。首先将数据标准化[ 0，1 ]，然后给出标准化后的数据。

请使用系谱聚类(SPSS软件)对上表中的数据进行聚类。每年聚集在三种，观察中国这三年的同种成员有没有变化。

实验结果2 :

)1)对2006年世界杯进行家谱聚类，家谱图和聚类结果如下：

)2)对2010年世界杯进行家谱聚类，家谱图和聚类结果如下

)3)对2007年亚洲杯进行谱系聚类，谱系图和聚类结果如下：

测试数据2 :快速聚类

以附录成绩为数据源，利用SPSS或Clementine，将该数据源为班级学生的概率论、随机过程和数理统计两个课程的成绩，通过快速聚类归纳为3班或5班，给出每个人所属的班级

实验结果

测试数据3：用SPSS或者Clementine，利用两步聚类完成教材中的示例（教材72页），重点分析74页的结果。
实验结果：

六、实验总结
七、部分参考代码（可附页或提交电子版）
附录：测试数据2的数据源”本班两门课的成绩”
76 88
71 88
85 83
78 87
76 75
81 78
85 88
88 76
93 89
70 86
85 94
74 71
98 91
63 68
79 91
90 67
65 81
71 78
81 70
97 91
70 65
77 95
61 67
63 67
78 75
86 87
77 88
84 83
64 88
65 82
77 72
100 98
96 87
83 71
92 84
71 86
75 80
71 92
88 90
81 83
51 84
69 87
69 62
74 95
64 63
71 80
76 88
79 95
78 71
87 83
82 66
82 84
73 82
67 85
80 90