首页 > 编程知识 正文

考勤聚类模型,聚类分析的类别

时间:2023-05-05 21:06:49 阅读:12313 作者:4944

聚类模型1.k均值聚类算法更好地求解基本过程k聚类中心的方法求解SPSS均值聚类的方法3 .层次聚类基本过程距离介绍基于SPSS的层次聚类决策k值确定方法

1 .均值聚类算法的基本流程

(1)定义

将示例划分为由类似对象构成的多个类的过程。 聚类后,可以在各级单独使用统计模型来更准确地进行估计、分析或预测; 也可以探究不同类之间的相关性和主要差异。

另外,必须区别于分类模型,对已知的类别进行分类。 虽然不知道聚类,但它是一个简单的分类。 下面,来看看更好的实现方法吧。

(2)步骤

1 .指定要分割的集群个数的k值、集群个数。

2 .随机选取k个数据的初始聚类中心,不一定是我们的样本点。

3 .计算从剩馀数据对象到这k个初始集群中心的距离,并将数据对象分类到中心与之最接近的集群类中。

4 .调整新班,重新计算新班中心。

循环5.3和4,查看中心是否收敛,达到收敛或迭代次数后停止循环。

)3)优缺点

好处:

)1)算法简单、快速。

)2)对于大数据集的处理,该算法比较高效。

缺点:

)1)必须事先给用户提供要生成的簇的数量k。

)2)对初始值敏感。

)3)对孤立点数据敏感。

其中第二个和第三个可以用k均值解决。 也就是说,选择更好的初始值点。

求解k个集群中心的方法差异在于初始化k个集群中心,并且初始集群中心之间的相互距离应该尽可能远。

随机选择样本作为第一个集群中心,计算每个样本与当前现有集群中心的最短距离,即与最近的集群中心的距离,该值越大,表示被选择为集群中心的概率越高; 最后,用轮盘赌法(根据概率大小抽签)选出下一个集群中心; 重复步骤2,选出k个集群中心。 选择初始点后,继续使用标准的k均值算法。

最初使用的是Kmean算法,但所选的两个起点尽可能远,与下一步相同。

)4)面临的问题-

1.k怎么给,试了各种各样,看看k要取多少值,比刚才的结果解释得更差。

有二维怎么计算距离? 如果数据的维度不同,计算距离也没有意义。 解决方法是进行标准化处理。 SSS求解均值聚类

那么,上面的算法可以不指定k吗?

采用以下系统级聚类即可。

3 .层次聚类的基本流程(1)定义

系统聚类集成算法计算两类数据点之间的距离,组合最近的两类数据点,将所有数据点合并为一类,重复该过程直到生成聚类家谱图。

)2)系统(层次)聚类的算法流程:

一、将各对象视为一种,计算两者之间的最小距离;

二、把距离最小的两个班合并成一个新班;

三、重新计算新班与所有班的距离;

重复四、二、三、两步,直到所有班级最后合并为一个班级

五.结束。

距离介绍(1)欧式距离是我们通常追求的距离,绝对值距离多用于网状距离

那么,怎么定义指标和指标之间的距离呢? 是相关系数或夹角余弦

把数据放在平面上,把相近的点分成一个类。 关于类和类之间的距离,样本保持距离,将近点分成一个类。

)班与班之间的距离

重心法,求重心,看距离最短距离法。 有多个样本点,要素连接搜索最短距离最长距离法组间平均连接法,类间点全部连接,求平均组内平均连接法,组内点连接求平均值

只要说明通了,就可以选择那个方法(3)。

系统聚类的流程图在选择类后,查看类与类之间的距离,进行一定的调整,合并距离进行计算,距离小则成为一个类,计算类之间的距离并计算是否可以聚集

看中点之间的距离,看新种类和剩下种类之间的距离,得到新的距离矩阵

最后,确保矩阵中只有一个元素

基于SSS的分层聚类

1 .不同方法的区别在于计算新类与其他各类之间距离的方法、分类的目标选择指标、样本间距的定义方式、聚类方法。 特别是在样本非常多的情况下,希望通过各种方法找到共性。

2 .必须注意指标维度,差异太大聚类结果不合理,需要规范化处理

3 .得到的结果可能不令人满意。 可能只是在做数学上的处理,所以有必要合理地说明结果。 否则,请走别的方法。

最后,根据家谱图,也可以决定最后分为几个类。

不同的k会得到不同的结果,最终取决于如何分割。

确定k值的方法用图表估计群集数量

确定k后,可以保存聚类结果并画画

3 .基于3.DBSCAN算法密度的聚类算法不需要在聚类之前预先指定集群的数目,使得生成的集群不稳定,能够生成特定的图形,并且包括在给定区域内的对象大于或等于预定阈值。

通过在有噪声空间数据库中发现形状容易的集群,能够连接密度足够大的邻接区域,能够有效地处理异常数据(有偏差的点)

从图中可以看出,该算法适用于形状独特的图形。

数据库

SCAN算法将数据点分为三类:
• 核心点:在半径Eps内含有不少于MinPts数目的点
• 边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内
• 噪音点:既不是核心点也不是边界点的点

优点:

基于密度定义,能处理任意形状和大小的簇;可在聚类的同时发现异常点;与K-means比较起来,不需要输入要划分的聚类个数。

缺点:

对输入参数ε和Minpts敏感,确定参数困难;由于DBSCAN算法中,变量ε和Minpts是全局唯一的,当聚类的密度不均匀时,聚类距离相差很大时,聚类质量差;当数据量大时,计算密度单元的计算复杂度大。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。