第1步:选择k个初始聚类中心,z1(1)、z2(1)、zk(1),其中括号中的序列号是找到聚类中心的迭代操作的第二序列号。聚类中心的向量值可以任意设置。例如,可以选择初始k个模式样本的向量值作为初始聚类中心。
第二步是根据最小距离准则将模式样本{x}分配给k个聚类中心之一。
假设i=j,则k为迭代运算的次序列号,第一次迭代k=1,sj为第j个簇,其簇中心为zj。
第3步:计算每个聚类中心的新向量值zj(k1),j=1,2,k
找到每个聚类域中样本的平均向量:
其中nj是第j个聚类域中的样本数sj。以均值向量作为新的聚类中心,可以最小化以下聚类准则函数:
在这一步中,我们需要分别计算k个聚类的样本均值向量,因此称为k-means算法。
第4步:如果j=1,2,k,则返回第二步,逐个重新分类模式样本,并重复迭代操作;
如果j=1,2,则算法收敛,计算结束。
适用条件:系统聚类方法适用于二维有序样本,样本数相对均匀。k-means聚类方法适用于快速、高效的聚类,尤其适用于大量的数据。
它们之间的区别如下:1。不同的参考文献。1k-均值聚类:一种迭代聚类算法。
2.系统聚类法:又称层次聚类法,是聚类分析的一种方法。
2、k-均值聚类方法:随机选取k个对象作为初始聚类中心,然后计算每个对象与每个种子聚类中心的距离,将每个对象分配到最近的聚类中心。
2.系统聚类法:首先将每个样本看作一个群体,然后将最近的样本(即距离最小的群体)聚类成一个小群体,再根据群体之间的距离将聚合的小群体进行合并,然后继续进行,最后将所有的子群体进行聚类聚集成一个大的群体。
3、不同的目的
1。k-均值聚类法:终止条件可以是没有(或最小数量)的对象被重新分配到不同的聚类中,没有(或最小数量)的聚类中心再次发生变化,并且误差平方和局部最小。
2.系统聚类法:以距离为相似统计量,确定新类与其他类之间距离的方法,如最短距离法、最长距离法、中间距离法、重心法、群平均法、方差平方和法等,欧几里德距离,等等
西格玛=[1,00,1
]mu1=[1,-1
]x1=mvnrnd(mu1,西格玛,200)
mu2=[5.5,-4.5
]x2=mvnrnd(mu2,西格玛,200)
mu3=[1,4
]x3=mvnrnd(mu3,西格玛,200)
mu4=[6,4.5
]x4=mvnrnd(mu4,西格玛,200)
mu5=[9,0.0
]x5=mvnrnd(mu5,西格玛,200)
%获取要聚集的1000个数据点
x=[x1x2x3x4x5
]%显示数据点
绘图(x1(:,1),x1(:,2),“r.”)按住
绘图(x2(:,1),x2(:,2),“b.”)
绘图(x3(:,1),x3(:,2),“k.”)
绘图(x4(:,1),x4(:,2),“g.”)
绘图(x5(:,1),x5(:,2),“m.”)
保存myx%保存x并将其加载到其他文件中