用于聚类分析的数据,聚类轮廓系数的通俗解释

什么是轮廓系数？见百度百科。这里不说明。

https://baike.baidu.com/item/配置文件系数/17361607？ fr=aladdin

核心问题：

这种计算方法的复杂性是多少？

o (n (2) ) ) )。

这里，n是样本数

这种复杂性是spark分布式大数据处理所不能接受的，我该怎么办呢？

如何计算spark的轮廓系数？资料1轮廓系数的简单计算实现：

3358 sujitpal.blogspot.com/2018/03/an-implementation-of-silhouette-score.html

资料2 spark Issue :

3359 issues.Apache.org/jira/browse/spark-14516

资料3 spark的Issues解答：

3359 drive.Google.com/file/d/0b0hyo _ BG _3fdknvsvnyx2E3 zu0/view

资料4 sklearn的实现方法：

3359 sci kit-learn.org/stable/modules/generated/sk learn.metrics.silhouette _ score.html # sk learn.metrics

通过简单计算方式和预结算两种方式，实现了复杂度的降低，实现了有效的应用。