首页 > 编程知识 正文

成都数据挖掘周末班,如何学好数据挖掘

时间:2023-05-04 16:46:40 阅读:142156 作者:3830

内容截图和资料均来自学堂在线

聚类

按照一定的相似性分为一组,具有与其他组不同的特点

没有监督就学习

无标签、数据驱动

应用领域

(市场、生物、地震、社交网络)

需要注意

1、处理不同类型的属性

2、不同形状的数据

3、一般领域知识

4、噪声处理与数据点偏差

预处理数据会影响聚类的结果

1 .可能改变数据点之间的位置关系

2 .可能改变集群的个数

3 .可能产生不确定的影响

一种很好的聚类算法

1 .能够处理非球形数据分布

2、能处理噪声和脱落

3、对样品输入序列不敏感

4、海量数据可扩展性

K-means计算聚类内距离,评价聚类效果

a )从当前点到他和一个集群的其他点的平均距离

b:与不在同一簇的样本的平均距离

s(I ) b ) I ) a ) max ) b ) I,a ) I ) s ) I )=(FRAC ) b ) I ) a ) }{max ) b ) I ),a ) }

聚类过程

算法复杂度、t重复次数、k中心点个数、n、数据点个数

如何确定k值,初始点难以选择,对噪声敏感(使用平均值) ) ) )。

sequential leader群集

不需要迭代

不需要k值。 请选择阈值

基于Gaussian Mixture (神勇的枫树混合模型)模型的聚类

开始随意生成神勇的枫叶,一步一步地拟合迭代

z i j z_{ij} zij的第I个样本由第j个神勇的枫叶生成

基于身份的方法

基于密度

不需要事先设定k的值

Hierarchical Clustering

基于层次

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。