首页 > 编程知识 正文

r数据分析培训(数据分析r语言)

时间:2023-05-03 06:39:48 阅读:104527 作者:449

层次聚类,也称为层次聚类分析,是一种将相似对象分组为称为聚类的组的算法。端点是一组集群,其中每个集群都不同于其他集群,并且每个集群中的对象彼此大致相似。

最后一篇R数据分析:如何做聚类分析,实操分析介绍了Kmeans聚类方法,本文为大家写了R语言实现的层次聚类:

基本思想:

1.开始时,将每个样本视为一个类。

2.指定某个度量作为样本间距离和类间距离的度量,并进行计算。(在hculster中使用dist方法和方法属性)

3.将距离最短的两个班合并为一个班。

4.重复2-3,即连续合并最后两个类,一次合并一个类,直到所有样本合并为一个类。

计算点与类之间距离的方法有很多,可以查阅相关资料了解。今天,我将为您写一个具体应用的例子:

00-1010今天,我们仍然使用最熟悉的虹膜数据集。

数据(iris)

在图(iris)聚类之前,我们必须标准化数据集。这样做的目的是消除不同特征、不同尺寸和数值差异的影响。

Irisscaled-scale (iris [,-5])

数据介绍

层次聚类的第一步是计算样本之间的距离:

d - dist(irisScaled[,1:4])

FitH-h crest(d,' ward。D2)我们知道层次聚类是基于距离的,所以我们首先用dist方法计算样本的距离矩阵:

该函数计算并返回距离矩阵,该距离矩阵通过使用指定的距离度量来计算数据矩阵的行之间的距离来计算。

以上是dist方法的解释,其中计算距离的默认方法是‘欧氏’距离,还有很多可供选择的方法‘欧氏’‘最大’‘曼哈顿’‘堪培拉’‘二进制’或者‘gddhk’,大家都可以尝试。

在得到距离矩阵后,我们使用聚类方法进行层次聚类。

对于生成的聚类结果,我们还可以得出:

图(fitH)

现在我们得到了一个完整的层次聚类树,它一层一层地聚集在一起。例如,如果我们现在想要三个类别,那么我们也可以将它们框在图上:

rect . h crest(FIth,k=3,border='red ')

盒子完成后,我们最想知道的是具体样品属于哪一类。这时,我们就要砍树,这很生动:

上述代码生成的Clusters对象clusters-cutree(fitH,k=3)是算法对每个样本的分类结果,即聚类结果:

对于上述结果,我们也可以在原始数据中使用相应的颜色:

绘图(iris,col=聚类)

00-1010今天,我给大家写了层次聚类的实际操作。谢谢你的耐心。发布这些东西主要是为了督促自己,希望大家关注评论,指出不足,共同进步。我会详细写内容,使用的数据集也会给出原文中的链接。只要你遵循文章中的代码,你自己也可以得到同样的结果。一个目的是了解基础知识,因为你没有从零开始学习Python和R。走吧。

(如果异地链收不到发不到,请关注后私消息,回复“数据链接”获取本头条号所有使用数据)

过去的内容:

r数据分析:如何做聚类分析和实际分析?

详细讲解K均值聚类,包容单车。

python中的无监督机器学习简介:K-均值聚类的实例实践

r数据分析:虹膜数据集聚类分析的实际操作

Python机器学习:分类问题学习模型的评估方法及代码实现

r语言映射:分类变量和连续变量之间关系的图形表达

r数据分析:如何计算问卷的总体效度,实践举例。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。