考勤聚类模型,聚类分析的类别

聚类模型1.k均值聚类算法更好地求解基本过程k聚类中心的方法求解SPSS均值聚类的方法3 .层次聚类基本过程距离介绍基于SPSS的层次聚类决策k值确定方法

1 .均值聚类算法的基本流程

(1)定义

将示例划分为由类似对象构成的多个类的过程。聚类后，可以在各级单独使用统计模型来更准确地进行估计、分析或预测；也可以探究不同类之间的相关性和主要差异。

另外，必须区别于分类模型，对已知的类别进行分类。虽然不知道聚类，但它是一个简单的分类。下面，来看看更好的实现方法吧。

(2)步骤

1 .指定要分割的集群个数的k值、集群个数。

2 .随机选取k个数据的初始聚类中心，不一定是我们的样本点。

3 .计算从剩馀数据对象到这k个初始集群中心的距离，并将数据对象分类到中心与之最接近的集群类中。

4 .调整新班，重新计算新班中心。

循环5.3和4，查看中心是否收敛，达到收敛或迭代次数后停止循环。

)3)优缺点

好处：

)1)算法简单、快速。

)2)对于大数据集的处理，该算法比较高效。

缺点：

)1)必须事先给用户提供要生成的簇的数量k。

)2)对初始值敏感。

)3)对孤立点数据敏感。

其中第二个和第三个可以用k均值解决。也就是说，选择更好的初始值点。

求解k个集群中心的方法差异在于初始化k个集群中心，并且初始集群中心之间的相互距离应该尽可能远。

随机选择样本作为第一个集群中心，计算每个样本与当前现有集群中心的最短距离，即与最近的集群中心的距离，该值越大，表示被选择为集群中心的概率越高；最后，用轮盘赌法(根据概率大小抽签)选出下一个集群中心；重复步骤2，选出k个集群中心。选择初始点后，继续使用标准的k均值算法。

最初使用的是Kmean算法，但所选的两个起点尽可能远，与下一步相同。

)4)面临的问题-

1.k怎么给，试了各种各样，看看k要取多少值，比刚才的结果解释得更差。

有二维怎么计算距离？如果数据的维度不同，计算距离也没有意义。解决方法是进行标准化处理。 SSS求解均值聚类

那么，上面的算法可以不指定k吗？

采用以下系统级聚类即可。

3 .层次聚类的基本流程(1)定义

系统聚类集成算法计算两类数据点之间的距离，组合最近的两类数据点，将所有数据点合并为一类，重复该过程直到生成聚类家谱图。

)2)系统(层次)聚类的算法流程：

一、将各对象视为一种，计算两者之间的最小距离；

二、把距离最小的两个班合并成一个新班；

三、重新计算新班与所有班的距离；

重复四、二、三、两步，直到所有班级最后合并为一个班级

五.结束。

距离介绍(1)欧式距离是我们通常追求的距离，绝对值距离多用于网状距离

那么，怎么定义指标和指标之间的距离呢？是相关系数或夹角余弦

把数据放在平面上，把相近的点分成一个类。关于类和类之间的距离，样本保持距离，将近点分成一个类。

)班与班之间的距离

重心法，求重心，看距离最短距离法。有多个样本点，要素连接搜索最短距离最长距离法组间平均连接法，类间点全部连接，求平均组内平均连接法，组内点连接求平均值

只要说明通了，就可以选择那个方法(3)。

系统聚类的流程图在选择类后，查看类与类之间的距离，进行一定的调整，合并距离进行计算，距离小则成为一个类，计算类之间的距离并计算是否可以聚集

看中点之间的距离，看新种类和剩下种类之间的距离，得到新的距离矩阵

最后，确保矩阵中只有一个元素

基于SSS的分层聚类

1 .不同方法的区别在于计算新类与其他各类之间距离的方法、分类的目标选择指标、样本间距的定义方式、聚类方法。特别是在样本非常多的情况下，希望通过各种方法找到共性。

2 .必须注意指标维度，差异太大聚类结果不合理，需要规范化处理

3 .得到的结果可能不令人满意。可能只是在做数学上的处理，所以有必要合理地说明结果。否则，请走别的方法。

最后，根据家谱图，也可以决定最后分为几个类。

不同的k会得到不同的结果，最终取决于如何分割。

确定k值的方法用图表估计群集数量

确定k后，可以保存聚类结果并画画

3 .基于3.DBSCAN算法密度的聚类算法不需要在聚类之前预先指定集群的数目，使得生成的集群不稳定，能够生成特定的图形，并且包括在给定区域内的对象大于或等于预定阈值。

通过在有噪声空间数据库中发现形状容易的集群，能够连接密度足够大的邻接区域，能够有效地处理异常数据(有偏差的点)

从图中可以看出，该算法适用于形状独特的图形。

数据库

SCAN算法将数据点分为三类：
• 核心点：在半径Eps内含有不少于MinPts数目的点
• 边界点：在半径Eps内点的数量小于MinPts，但是落在核心点的邻域内
• 噪音点：既不是核心点也不是边界点的点

优点：

基于密度定义，能处理任意形状和大小的簇；可在聚类的同时发现异常点；与K-means比较起来，不需要输入要划分的聚类个数。

缺点：

对输入参数ε和Minpts敏感，确定参数困难；由于DBSCAN算法中，变量ε和Minpts是全局唯一的，当聚类的密度不均匀时，聚类距离相差很大时，聚类质量差；当数据量大时，计算密度单元的计算复杂度大。