根据轮廓系数确定kmeans的k值的方法:
1 )计算从样本I到同簇其他样本的平均距离ai。 ai越小,指示样本I应该被分组到该集群中。 群集中将ai称为样本I的非相似度。
集群c中所有样本的a i平均值被称为集群c的集群不相似度。
2 )计算从样本I到另一个集群Cj的所有样本的平均距离bij,称为样本I和集群Cj的非相似度。 定义为示例I的集群之间的非相似度: bi=min{bi1,bi2,…,bik}
bi越大,表示样本I不属于其他集群。
3 )基于样本I的聚类内非相似度a i和簇间不相似度b i定义样本I的轮廓系数。
4、判断:
si接近1表明样本I聚类合理;
si接近-1表明样本I应该被分类到另一个集群中;
如果si接近0,则样本I将在两个集群之间的边界上。
所有样本的s i均值都称为聚类结果的轮廓系数,是聚类是否合理有效的度量。
构建学习曲线:
3359 blog.csdn.net/QQ _ 15738501/article/details/79036255
3359 blog.csdn.net/u 012679583/article/details/80316619