成都数据挖掘周末班,如何学好数据挖掘

内容截图和资料均来自学堂在线

聚类

按照一定的相似性分为一组，具有与其他组不同的特点

没有监督就学习

无标签、数据驱动

应用领域

(市场、生物、地震、社交网络)

需要注意

1、处理不同类型的属性

2、不同形状的数据

3、一般领域知识

4、噪声处理与数据点偏差

预处理数据会影响聚类的结果

1 .可能改变数据点之间的位置关系

2 .可能改变集群的个数

3 .可能产生不确定的影响

一种很好的聚类算法

1 .能够处理非球形数据分布

2、能处理噪声和脱落

3、对样品输入序列不敏感

4、海量数据可扩展性

K-means计算聚类内距离，评价聚类效果

a )从当前点到他和一个集群的其他点的平均距离

b:与不在同一簇的样本的平均距离

s(I ) b ) I ) a ) max ) b ) I，a ) I ) s ) I )=(FRAC ) b ) I ) a ) }{max ) b ) I )，a ) }

聚类过程

算法复杂度、t重复次数、k中心点个数、n、数据点个数

如何确定k值，初始点难以选择，对噪声敏感(使用平均值) ) ) )。

sequential leader群集

不需要迭代

不需要k值。请选择阈值

基于Gaussian Mixture (神勇的枫树混合模型)模型的聚类

开始随意生成神勇的枫叶，一步一步地拟合迭代

z i j z_{ij} zij的第I个样本由第j个神勇的枫叶生成

基于身份的方法

基于密度

不需要事先设定k的值

Hierarchical Clustering

基于层次