什么是轮廓系数? 见百度百科。 这里不说明。
https://baike.baidu.com/item/配置文件系数/17361607? fr=aladdin
核心问题:
这种计算方法的复杂性是多少?
o (n (2) ) ) )。
这里,n是样本数
这种复杂性是spark分布式大数据处理所不能接受的,我该怎么办呢?
如何计算spark的轮廓系数? 资料1轮廓系数的简单计算实现:
3358 sujitpal.blogspot.com/2018/03/an-implementation-of-silhouette-score.html
资料2 spark Issue :
3359 issues.Apache.org/jira/browse/spark-14516
资料3 spark的Issues解答:
3359 drive.Google.com/file/d/0b0hyo _ BG _3fdknvsvnyx2E3 zu0/view
资料4 sklearn的实现方法:
3359 sci kit-learn.org/stable/modules/generated/sk learn.metrics.silhouette _ score.html # sk learn.metrics
通过简单计算方式和预结算两种方式,实现了复杂度的降低,实现了有效的应用。