内容截图和资料均来自学堂在线
聚类
按照一定的相似性分为一组,具有与其他组不同的特点
没有监督就学习
无标签、数据驱动
应用领域
(市场、生物、地震、社交网络)
需要注意
1、处理不同类型的属性
2、不同形状的数据
3、一般领域知识
4、噪声处理与数据点偏差
预处理数据会影响聚类的结果
1 .可能改变数据点之间的位置关系
2 .可能改变集群的个数
3 .可能产生不确定的影响
一种很好的聚类算法
1 .能够处理非球形数据分布
2、能处理噪声和脱落
3、对样品输入序列不敏感
4、海量数据可扩展性
K-means计算聚类内距离,评价聚类效果
a )从当前点到他和一个集群的其他点的平均距离
b:与不在同一簇的样本的平均距离
s(I ) b ) I ) a ) max ) b ) I,a ) I ) s ) I )=(FRAC ) b ) I ) a ) }{max ) b ) I ),a ) }
聚类过程
算法复杂度、t重复次数、k中心点个数、n、数据点个数
如何确定k值,初始点难以选择,对噪声敏感(使用平均值) ) ) )。
sequential leader群集
不需要迭代
不需要k值。 请选择阈值
基于Gaussian Mixture (神勇的枫树混合模型)模型的聚类
开始随意生成神勇的枫叶,一步一步地拟合迭代
z i j z_{ij} zij的第I个样本由第j个神勇的枫叶生成
基于身份的方法
基于密度
不需要事先设定k的值
Hierarchical Clustering
基于层次