7种常用的聚类方法,聚类分析的概念

聚类算法是对代表事物的实例集合进行聚类的算法。聚类是无监督学习。

k均值聚类算法：基本思想：

设样本总数为m，样本集为S={x_1，x_2，x_m}。 k均值聚类算法预指定聚类数目用于样本集合，即k。集群集合表示为C={C_1，C_2，…，C_k}，各集群为样本的集合。 k均值聚类算法的基本思想是进一步拉近各采样点到本簇中心的距离。尽量减小各采样点到本簇中心的距离平方和是k均值算法的优化目标。各采样点到本簇中心的距离的平方和也称为误差平方和(SSE )，在优化算法中称为损失函数或代价函数。

距离：欧式距离：

jzdmt距离：

曼哈顿距离： jzdmt距离的p=1的情况称为曼哈顿距离

热心的电脑距离：当jzdmt距离的p=时，称为听者冬天的距离

VDM(valuedifferencemetric )距离：对于难以转换为数值直接测量的非数值，可以使用VDM(valuedifferencemetric )进行距离测量。如果使用表示第j维特征的值为a的样本数和在第k个簇中表示第j维特征的值为a的样本数，则第j维特征中2个值b和c之间的VDM距离如下。

VDM距离描绘了各聚类中特征性取值分布的差异。

余弦距离(余弦距离表示两个向量之间的角度，适用于向量方向的相似性测量。的余弦距离如下。

采用nqdxyz距离，以SSE为损失函数，计算簇中心：对于第I个簇，簇中心是簇内所有点的平均，簇中心的第j个特征是||表示簇内样本的总数。 SSE的计算方法，其中dist为距离计算函数，nqdxyz距离经常被使用，表示样本所在的簇的中心。

特征归一化：

改进的k均值：二分k均值算法：二分k均值(bisect ingk-means )算法试图克服k均值算法收敛于局部最优值的缺陷首先将所有点看作一个簇，然后将该簇分成两部分，然后选择其中一个簇继续分裂。选择哪个簇进行分裂，取决于进行分裂的分裂能否最大限度地降低SSE值。

从选择合适的初始簇心的角度出发，k均值算法： k均值算法解决了k均值算法对初始簇心敏感的问题。从采样点x到u的距离d(x )是从该点到u中元素的距离的最小值。也就是说，是将d ) x )转换为概率p ) x )的方法。

聚类算法评价指标：外部指标：

内部指标：

轮廓系数：

数据库指数：

Dunn指数：

DBS can :基于密度的空间聚类算法该算法将具有足够密度的区域划分成簇，并在有噪空间数据库中发现任意形状的簇。它将簇定义为密度相连的点的最大集合。

ϵ-邻域（Eps-neighborhood）设ϵ为距离值。对样本点∈S，记N_ϵ(x_i)为样本集S中所有与x_i距离不大于ϵ的样本，称为x_i的ϵ-邻域。即

ϵ是DBSCAN算法需要指定的两个参数之一

2.核心点（core point）和边界点（border points）

该算法还需要指定另一个自然数阈值参数MinPts，用来区分所谓的核心点和边界点。核心点是ϵ-邻域中样本点数量不小于MinPts的点，即如果x_i是核心点，则|N_ϵ(x_i)|≥MinPts。相反，则称为边界点。直观来看，核心点是密度簇内处于内部的点，边界点是处于簇边界的点。

3.直接密度可达（directly density-reachable）

若x_j位于x_i的邻域内，且x_i是核心点，则称x_j可由x_i直接密度可达。显然，核心点之间的直接密度可达是对称的，而边界点和核心点之间的直接密度可达不是对称的

4.密度可达（density-reachable）

密度可达是由直接密度可达多次传递得到。称x_j可由x_i密度可达，如果存在一个样本点序列p_1,p_2,…,p_n，p_1=x_i，p_n=x_j，且p_i+1由p_i直接密度可达。

5.密度相连（density-connected）对点x_i和x_j，若存在点o，使得x_i和x_j均可由o密度可达，则称x_i和x_j密度相连。

DBSCAN中的“簇”：所有密度相连的样本点集合。也就是说，在给定邻域参数ϵ和MinPts时，簇C是样本集S的非空子集，它满足以下两个条件：

1）∀x_i,x_j：如果x_i∈C，且x_j可由x_i密度可达，则x_j∈C。

2）∀x_i,x_j∈C：x_i和x_j密度相连。

簇C至少包含一个核心点，因此，簇内样本点个数不小于MinPts。按照以上定义，根据参数ϵ和MinPts的大小，可能会出现某些样本点不属于任何一个簇，称为噪声点（noise）

国外有一个特别有意思的网站:https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

OPTICS算法：

计算可达距离流程：

OPTICS算法的核心思想是将每个点离最近聚集密集区的可达距离都计算出来，然后据此进行分簇

算法示例：

AGNES算法：

算法流程：

n_clusters是指定的终止簇数。linkage是簇距离度量方法，支持ward、complete、average和single四种方法。complete、average和single分别对应簇最大距离、簇平均距离和簇最小距离。与其它方法不一样，Ward方法在算法的第4步和第5步，合并使得偏差（簇中心与点的差值）平方和增加最小的两个簇。它先要对所有簇进行两两试合并，并计算偏差平方和的增加值，然后只取增加最小的两个簇进行合并。