大数据研究的文献综述,大数据的文献检索综述

本文简介聚类算法的分类相似性度量方法大数据聚类算法spark中的聚类算法比较性能比较效果参考文献

个人资料

随着数据量的快速增长，如何有效地聚类大数据成为一个具有挑战性的研究课题，面向大数据的聚类算法对传统金融业股票投资分析、互联网金融业客户细分等金融应用领域具有重要价值本文简要介绍现有的大数据聚类算法以及常用的聚类算法

聚类分析是随着统计学、计算机学和人工智能等领域科学的发展而逐渐发展起来的。因此，如果这些领域有较大的研究进展，必然会促进聚类分析算法的快速发展。

例如，机器学习领域人工神经网络和支持向量机的发展促进了基于神经网络的聚类方法和核聚类方法。目前，基于人工神经网络的深度学习，如Alpha GO围棋系统，也将推动聚类分析方法的进一步发展。到目前为止，聚类研究及其应用领域非常广泛，因此本文主要以聚类分析算法为主要分析对象，兼顾聚类分析的全过程。

关于聚类分析，《数据挖掘概念与技术（第二版）》这本书已经有了经典的论述。但是聚类算法又有了很大的发展和进步。

聚类算法的分类

相似性的测定方法3 )曼哈顿距离(Manhattan Distance )。

要在城市里生活，只能沿着街道从一个地方到另一个地方。因此，人们将生活中熟悉的城市街区距离(City Block Distance )想象为曼哈顿距离。

曼哈顿距离在基于自适应共振理论(Adaptive Resonance Theory，ART )的同步聚类(SYnchronization Clustering，SYC )中有良好的应用；但是需要注意的是，该距离不再符合特征空间中的变换和旋转的不变性。

4 ) ggdy距离。

gdy距离是p范数的形式，公式可以表示为：

由公式(10 )可知，当p无限大时，该距离可以称为hsdbl距离； p=2时欧几里得距离；那么p=1时，曼哈顿距离。

5 ) zxdld距离。

zxdld距离是协方差矩阵的距离测量方法，可用以下公式表示。

zxdld距离的优点是距离不依赖于属性的维度，并消除了属性之间的相关干扰。当各属性之间独立且同分布时，协方差矩阵为单位矩阵。这样，平方zxdld的距离也变成了纤细的月饼距离[18-19]。

6 )对称点距离。

如果簇中存在对称模式，则可以使用对称点距离。公式如下。

对称点距离是从该点到对称点和其他点的距离的最小值。

7 )相关系数。

距离测量也可以来自相关系数[20]，例如皮尔森相关系数的定义如下：

8 )余弦相似度(Cosine Similarity )。

最后一种计算直接相似性的方法是余弦相似度。其表现形式如下

其中，s表示样本之间的相似性(以下相同)。在特征空间中，两个样本越相似，越倾向于平行，余弦值也越大。

需要注意的是，在这8种聚类相似度度量方法中，最后3种相似度计算方法已不能满足对称性、非阴性和反身体性的要求，即属于非可测范畴。连续性变量相似性度量方法在不同聚类算法中的应用如表1所示。

大数据聚类算法

spark的群集算法http://spark.Apache.org/docs/latest/ml-clustering.html spark支持以下类型的群集算法

k-meanslatentdirichletallocation (LDA ) bisect ingk-meansgaussianmixturemodel (GMM )配电群集(PIC )类

效果比较

来自sklearn :

3359 sci kit-learn.org/stable/modules/clustering.html # clustering参考文献[1]飞沫.大数据聚类算法综述[J] .计算机524 .光谱聚类： https://blog.csdn.net/YC _ 1993/article/details/52997074