首页 > 编程知识 正文

聚类评估(怎么得到spss聚类分析的结果)

时间:2023-05-06 04:47:56 阅读:78218 作者:260

引言

聚类是一种无监督的学习方法,评价指标与有监督的学习差异不大,而且很多人在建模完成后不能重视聚类结果的评价。

本文对聚类评价指标进行了总结,并讨论了各统计软件中现有的评价指标。

1 聚类方法论

聚类性能测量又称聚类“有效性指标”,通过某种性能测量对聚类结果进行好坏评价

如果最终使用的性能度量明确,则可以将其直接作为聚类过程的优化目标。

2 两类聚类性能度量

2.1 外部指标:将聚类结果与某个‘参考模型’进行比较

1).Jaccard系数

2 )调频指数(Fowl KES and mallows索引) )。

3 ).Rand指数(Rand索引) )。

4 )互信息法

2.2 内部指标:直接考察聚类结果而不利用任何参考模型

1).DB指数(Davies-Bouldin Index ),DB指数越小越好;

2 )、Dunn指数(Dunn索引)、Dunn指数越大越好;

3 ) )轮廓系数(Silhouette coefficient )、轮廓系数取值区间(-1,1 )、与类样本的距离越远、与不同类样本的距离越远,分数越高。

4 )、Calinski-Harabaz index、得分值ss越大越有效

3 python(上面指标的实现都可以在skitlearn中找到)

3358 sk learn.Apache cn.org/cn/0.19.0/modules/clustering.html # clustering

4 R软件包中的聚类评价

1)轮廓系数(fpc包) ) ) ) ) ) ) )。

2 ) .兰德指数(flexclust包) ) ) ) )。

3 ) .用30种方法评价不同类型的方法(NbClust软件包),速度较慢

5 SAS中的聚类评价

1) .理论基础

2 ).r侧统计量

类间方差平方和所占的比例越大,类内的方差平方和的比例越小,分类效果越好

该统计量使用类别间方差平方和相对于所有方差平方和的比例

不应该用r方的大小简单地决定分类个数,而应该考察其值的变化,即半偏r方

3 )半偏r方统计量

k 1次综合类后r侧统计量与k次综合后的r侧统计量之差

如果半偏r较大,则表明此次亲缘效应不好,应该考虑停止聚类前的步骤

4 )假f统计量

类内分散平方和(分母)小,类间平方和(分子)相对大

取假f统计量大、类数小的聚类水平

5 )假三通统计量

测量当前合并的两个类之间的分离度。 该值越小,表示当前集成的两个类越合理

相反,它表明这个步骤的聚类效果不好,并且应该考虑当聚类前进到上一步骤时是否应该停止

6 ).3阶群集标准(Cubic群集创建) ) ) )。

越大,分类越合理,峰值表示聚类数;

CCC的值大于2或3反映了聚类的良好。

7 ) .标准化均方根距离(规格化rms距离)。

该值是类别间距离除以观测间距离均方根,有助于判断聚类的适当数量;

如果某一步骤的标准化均方根距离的增加幅度最大,则该步骤的钱的聚类数是最优的

伪f端和伪t端由关键字仿真生成,仅在使用average、centriod和ward方法时有效

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。