聚类是什么,聚类DBI指数一般范围

1群集任务

在无监督学习中，获取的数据集没有label信息。无监督学习的目的是通过学习无label数据集揭示数据内部的性质和规律，为进一步的数据分析提供基础。

聚类是最常见的无监督学习任务。

的目的是尝试将数据集中的示例划分为几个不相交的子集。每个子集被称为簇，每个簇对应于潜在的概念，如“亮甜瓜”和“无籽甜瓜”。但是，请注意，每个聚类的概念由使用者定义，聚类算法只是将性质类似形状的样本聚类到聚类上，而不同聚类所表示的语义对于聚类算法来说是未知的。

形式化的定义聚类过程是指对无标记数据集D={x1，x2，xm }，xi Rn，经过聚类形成k个互不相交的聚类{ CLL=1，2，k}。这里，假设i=1k Ci=D，clcl(=(l=l ) )

集群可以作为单独的应用，用于挖掘数据的内在结构。它也可以用作其他APP应用程序的前驱过程。例如，在某些业务APP应用程序中，往往先群集用户类型，然后再确定新用户的类型。

2集群度量

聚类测量是表征聚类结果好坏的标准。

聚类结果总体上期望属于同一集群的样本尽可能相似，而属于不同集群的样本差异尽可能大。也就是说，可以期待“集群内相似度高”、“集群间相似度低”的效果。

聚类度量可以分为两类，一类是有外部参考结果的外部指标；另一个是没有外部参照结果的内部指标。

2.1外部指标

数据集D={x1，x2，xm }，基于聚类的聚类分割C={C1，C2，Ck }，基于外部参照模型的聚类分割结果为C={C1，C2，}，分别为将示例配对，并定义：

a=SS >，ss={(Xi，xj ) >I=j，>I=j，I

a表示聚类算法被判别为同一类别，参照模型也表示被判别为同一类别的样本对数； b表示聚类算法被判别为同一类别，但参考模型也被判别为不同类别的样本对数； C表示聚类算法被判别为不同类别，但参考模型也表示被判别为同一类别的样本对数； d表示聚类算法被判别为不同类别，参考模型也被判别为不同类别的样本对数。存在abcd=m(m-1 )/2，因为每个样本对只出现在某个ABCD中。

典型的集群性能度量外部指标包括：

JAC卡系数：

JC=a b ca

调频指数：

FMI=a ba a ca

Rand指数：

ri=m(m1 )2) ad )

上述3个指标均取[ 0，1 ]的范围，值越大越好。

2.2内部指标

考虑并定义聚类结果的聚类C={C1，C2，Ck }

AVG(c ) (c ) ) c ) ) c )1)2) 1I

dist ) )用于计算两个采样之间的距离。 u表示聚类c的中心点位置。在上述定义中，avg表示某簇内部采样点的距离的平均值； diam表示簇c内样本间的最大距离； dmin(Ci，Cj )表示簇ci和Cj之间的最小采样距离； CEN(Ci，Cj )对应于集群ci和Cj中心点之间的距离。

典型的集群性能度量内部指标包括：

数据库指数：

DBI=K1I=1kmaxj=I(dcen(ui，uj ) AVG ) ci ) AVG ) CJ ) )

Dumn指数：

di=min 1Ik { minj=I (max 1lk diam (cl ) dmin(ci，Cj ) }

DBI的值越大越好，DI的值越小越好。

三距离计算

对于函数dist (，)，对于“距离测量”，必须满足一些基本性质。

非阴性(dist ) Xi，xj ) 0；

同一性： dist(Xi，xj )=0目前只设xi=xj；

对称性： dist(xi，xj ) dist(xi，Xi )；

递归性(dist(Xi，xj(dist ) Xi，xk ) dist(Xi，XJ ) ) (三角不等式) ) ) ) ) ) ) ) ) ) ) )的三角不等式) ) ) ) )

给定样本Xi=(Xi1，xi2，xin )和Xi=(Xi1，xj2，xjn )，最常用“傻瓜双肩包距离”。

distMK(Xi，xj )=) u=1n ) Xiuxju ) p ) p1

当P=1时，也被称为"曼哈顿距离"，也称为"街区距离"； P=2时，为“cxdlm距离”。

属性可以分为“连续属性”和“无序属性”，例如可以直接计算{ 1，2，3 }的不同元素之间的距离，这称为连续属性；另一方面，{飞机、轮船、汽车}不能直接计算距离，被称为“无序属性”。

笨蛋包的距离也可以用在无序的属性上。

无序属性可以使用值定义元素(VDM )。 mu，a表示属性u取值a的样本数，mu，a，I表示第I个样本聚类中属性u取值a的样本数，若k为样本聚类数，则属性u上两个离散值a与b之间的VDM距离为：

VDMP(a，b )=I=1k ) mu，a mu，a

,i−mu,bmu,b,i∣

将笨笨的书包距离与VDM结合可用来处理混合属性，假定有nc个有序属性、n−nc个无序属性，不失一般性，假设有序属性排列在无序属性之前，则

wjdhxc(xi,xj)=(u=1∑nc∣xiu−xju∣p+u=nc+1∑nVDMp(xiu,xju))p1

当样本空间中不同属性的重要性不同时，还可使用加权距离，以笨笨的书包距离为例：

distwmk(xi,xj)=(w1∣xi1−xj1∣p+⋯+wn∣xin−xjn∣p)p1

wi≥0and∑i=1nwi=1.

一般情况下，我们基于距离度量来定义相似度，距离越大，相似度越小。

4 聚类算法

4.1 原型聚类

原型聚类假设聚类结构能够通过一组原型刻画，算法通常先对原型进行初始化，然后对原型进行迭代更新求解。

常见的原型聚类有k均值算法、学习向量量化和dtdzt混合聚类等。

4.1.1 k均值算法

给定样本集D={x1,x2,⋯,xm}，k均值算法针对聚类所得簇划分C={C1,C2,⋯,Ck}最小化平方误差

E=i=1∑kx∈Ci∑∣∣x−ui∣∣2

ui=∣Ci∣1∑x∈Cix是簇Ci的均值向量。

直观来看，k均值算法在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度，E值越小则簇内样本相似度越高。

最小化上式并不容易，需要考察样本集D所有可能的簇划分，是一个NP难的问题。k均值算法采用贪心策略，通过迭代优化来近似求解式子。

k均值算法的流程如下所示：

为了避免运行时间过长，通常会设置一个最大迭代次数或最小调整幅度阈值，若达到最大迭代次数或者调整幅度小于设定的阈值则停止迭代，完成聚类。

k均值算法无法自适应的决定应该划分的簇数，需要预先设定k值，一般是基于不同的k值多次运行聚类算法之后选取最佳结果；另外，初始聚类中心点的选择对聚类结果也存在一定的影响，可以通过多次运行k均值算法选取最好的聚类结果；k均值算法需要不断的进行样本与中心点的距离计算及不断的更新中心点位置，在数据集规模较大时，k均值算法的计算量较大。

4.1.2 学习向量量化

学习向量量化(Learning Vector Quantization,LVQ)也是试图找到一组原型向量来刻画聚类结构。但与一般聚类算法不同的是，LVQ假设数据样本带有类别标记，学习过程利用样本的