首页 > 编程知识 正文

spss系统聚类分析步骤,聚类轮廓系数的通俗解释

时间:2023-05-06 05:59:59 阅读:12118 作者:1270

这个总结是个人为了防止遗忘而做的,不能转载或商用。

用聚类算法分类后,如何判断分类的效果? 方法是“轮廓系数”。

Silhouette系数是对聚类结果有效性的解释和验证,由Peter J. Rousseeuw于1986年提出。

方法:

1 )计算从样本I到同簇其他样本的平均距离ai。 ai越小,指示样本I应该被分组到该集群中。 将ai作为示例I的簇内不相似度

簇C中所有样本的a i 均值称为簇C的簇不相似度。

2 )计算从样本I到另一个集群Cj的所有样本的平均距离bij,称为样本I和集群Cj的非相似度。 定义为示例I的簇间不相似度:bi=min{bi1,bi2,bik}

bi越大,说明样本i越不属于其他簇。

3 )根据样本I的簇内非相似度a i和簇间非相似度b i,得出样本I的轮廓系数

4、判断:

si接近1表明样本I聚类合理;

si接近-1表明样本I应该被分类到另一个集群中;

如果si接近0,则样本I将在两个集群之间的边界上。

所有样本的s i 的均值称为聚类结果的轮廓系数,是该聚类是否合理、有效的度量。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。