用Matlab编程实现
采用Matlab中的几种基本矩阵计算方法,通过自行编程实现聚类算法,这里只讨论基于最短距离规则的聚类方法。
调用函数:
min1.m——计算矩阵的最小值,并返回具有最小值的行和列以及值的大小
min2.m——比较两个数字的大小并返回小值
std1.m——用极差的标准化方法对矩阵进行标准化
DS1 .用m ——绝对值距离法求距离矩阵
cluster.m——采用最短距离聚类法进行聚类分析
print1.m——调用每个子函数并显示聚类结果
聚类分析算法
设距离矩阵为向量、次数a,矩阵中的最大值为max,矩阵上的三角元素等于max
聚类次数=a-1,按照以下步骤进行a-1循环:
求出变更后的矩阵的次数,设为c
求出矩阵的最小值,返回有最小值的行e、列f和值的大小g
向forl=1:c、vector(c1,l )分配值,生成新的类
设第c 1列要素、第e行和第f行的所有要素、第e列和第f列的所有要素为max
源程序包括:
%std1.m,用极差的标准化方法标准化矩阵
函数TD=STD1(向量)
max=max (载体); 对%列求最大值
min=min (向量;
[a,b ]=size (向量); %矩阵的大小,a为行数,b为列数
for i=1:a
forj=1:b
STD(I,j )=) vector(I,j )-min (j ) )/) max(j )-min (j );
结束
结束
%ds1.m,用绝对值法求距离
函数d=DS1 (vector;
[a,b ]=size (向量);
d=Zeros(a;
for i=1:a
forj=1:a
for k=1:b
d(I,j )=d ) I,j ) ABS ) vector ) I,k )-vector(j,k ) )
结束
结束
结束
fprintf (绝对值距离矩阵如下。 (n );
是disp(d )
%min1.m,求矩阵中的最小值,返回矩阵数及其值
功能[ v1,v2,V3]=min1(vector ); %v1是行数,v2是列数,v3是其值
[v,v2 ]=min (min (向量' );
[v,v1 ]=min (min (向量);
v3=min(min ) vector );
%min2.m,比较两个数量的大小,并返回较小的值
函数v1=min (v2,v3 );
if v2v3
v1=v3;
else
v1=v2;
结束
%cluster.m,最短距离聚类法
函数结果=集群(vector;
[a,b ]=size (向量);
max=max(max )载体);
for i=1:a
for j=i:b
vector(I,j )=max;
结束
结束;
fork=1:(B-1) )
[c,d ]=size (向量);
fprintf (第%g次群集:(n ),k );
[e,f,g ]=min1(向量);
fprintf (最小值=%g,将第%g区和第%g区合并为G%gnn )、g、e、f、c 1 );
forl=1:c
ifl=min2(e,f ) )。
向量(f (f (C1,l )=min2)向量(e,l ),向量(f,l ) );
else
vector (l (l,l )=min2) vector (l,e ),vector (l,f );
结束
结束;
Vector(1:c 1,C1 )=max;
vector(1:c1,e )=max;
Vector(1:c1,f )=max;
Vector(e,1:c 1)=max;
Vector(f,1:c 1)=max;
结束
%print1,调用每个子函数
函数打印=打印1 (文件名,a,b ); %a是地区数,b是指标数
FID=fopen (文件名称,' r ' ) ) )。
Ector=FSCANF(FID,“%g”,[粗暴的冷风];
fprintf (标准化结果如下。 n ) ) )。
v1=
std1(vector)v2=ds1(v1);
cluster(v2);
%输出结果
print1('fname',9,7)
2.直接调用Matlab函数实现
2.1调用函数
层次聚类法(Hierarchical Clustering)的计算步骤:
①计算n个样本两两间的距离{dij},记D
②构造n个类,每个类只包含一个样本;
③合并距离最近的两类为一新类;
④计算新类与当前各类的距离;若类的个数等于1,转到5);否则回3);
⑤画聚类图;
⑥决定类的个数和类;
Matlab软件对系统聚类法的实现(调用函数说明):
cluster 从连接输出(linkage)中创建聚类
clusterdata 从数据集合(x)中创建聚类
dendrogram 画系统树状图
linkage 连接数据集中的目标为二元群的层次树
pdist 计算数据集合中两两元素间的距离(向量)
squareform 将距离的输出向量形式定格为矩阵形式
zscore 对数据矩阵 X 进行标准化处理
各种命令解释
⑴ T =clusterdata(X, cutoff)
其中X为数据矩阵,cutoff是创建聚类的临界值。即表示欲分成几类。
以上语句等价与以下几句命令:
Y=pdist(X,’euclid’)
Z=linkage(Y,’single’)
T=cluster(Z,cutoff)
以上三组命令调用灵活,可以自由选择组合方法!
⑵ T =cluster(Z, cutoff)
从逐级聚类树中构造聚类,其中Z是由语句likage产生的(n-1)×3阶矩阵,cutoff是创建聚类的临界值。
⑶ Z = linkage(Y) Z = linkage(Y, 'method')
创建逐级聚类树,其中Y是由语句pdist产生的n(n-1)/2 阶向量,’method’表示用何方法,默认值是lldxhd距离(single)。有’complete’——最长距离法;‘average’——类平均距离;‘centroid’——重心法 ;‘ward‘——递增平方和等。
⑷ Y = pdist(X) Y = pdist(X,'metric')
计算数据集X中两两元素间的距离, ‘metric’表示使用特定的方法,有lldxhd距离‘euclid’、标准lldxhd距离‘SEuclid’、无语的大炮距离‘mahal’、wldhb距离‘wsdny‘ 等。
⑸ H = dendrogram(Z) H =dendrogram(Z, p)
由likage产生的数据矩阵z画聚类树状图。P是结点数,默认值是30。
2.2举例说明
设某地区有八个观测点的数据,样本距离矩阵如表1所示,根据最短距离法聚类分析。
%最短距离法系统聚类分析
X=[7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29;
7.6850.37 11.35 13.3 19.25 14.59 2.75 14.87;
9.4227.93 8.20 8.14 16.17 9.42 1.55 9.76;
9.1627.98 9.01 9.32 15.99 9.10 1.82 11.35;
10.0628.64 10.52 10.05 16.18 8.39 1.96 10.81];
BX=zscore(X); %标准化数据矩阵
Y=pdist(X) %用lldxhd距离计算两两之间的距离
D=squareform(Y) %lldxhd距离矩阵
Z = linkage(Y) %最短距离法
T = cluster(Z,3) %等价于{T=clusterdata(X,3) }
find(T==3) %第3类集合中的元素
[H,T]=dendrogram(Z) %画聚类图
聚类谱系图如图1所示:
图1 聚类谱