这个总结是个人为了防止遗忘而做的,不能转载或商用。
用聚类算法分类后,如何判断分类的效果? 方法是“轮廓系数”。
Silhouette系数是对聚类结果有效性的解释和验证,由Peter J. Rousseeuw于1986年提出。
方法:
1 )计算从样本I到同簇其他样本的平均距离ai。 ai越小,指示样本I应该被分组到该集群中。 将ai作为示例I的簇内不相似度
簇C中所有样本的a i 均值称为簇C的簇不相似度。
2 )计算从样本I到另一个集群Cj的所有样本的平均距离bij,称为样本I和集群Cj的非相似度。 定义为示例I的簇间不相似度:bi=min{bi1,bi2,bik}
bi越大,说明样本i越不属于其他簇。
3 )根据样本I的簇内非相似度a i和簇间非相似度b i,得出样本I的轮廓系数;
4、判断:
si接近1表明样本I聚类合理;
si接近-1表明样本I应该被分类到另一个集群中;
如果si接近0,则样本I将在两个集群之间的边界上。
所有样本的s i 的均值称为聚类结果的轮廓系数,是该聚类是否合理、有效的度量。