聚类与性能度量----机器学习

时间:2024-03-23 15:42:32

前面介绍的算法基本是分类和回归任务,属于“监督学习”,这里我们说的聚类属于“无监督学习”,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。

聚类任务

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。形式化的说,假定样本集聚类与性能度量----机器学习包含m个无标记的样本,每个样本聚类与性能度量----机器学习是一个n维特征向量,聚类的任务就是将样本集D划分为k个不相交的簇聚类与性能度量----机器学习,其中各个簇的交集为空,相应的,引入聚类与性能度量----机器学习表示样本聚类与性能度量----机器学习的“簇标记”,即聚类与性能度量----机器学习。于是,聚类的结果可以用包含m个元素的簇标记向量聚类与性能度量----机器学习

以上就是聚类的任务,但是没有标签,我怎么知道我的聚类结果是好还是坏呢? 如何判断? 接下来我们一起来理解聚类任务中的性能度量。

性能度量

聚类性能度量也称为聚类“有效性指标”。直观上看,我们希望“物以类聚”,也就是说同一个簇里面的样本尽可能彼此相似,不同簇中的样本尽可能不同,所以就是“簇内相似度”高并且“簇间相似度”低。

聚类中的性能指标大概有两类,一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”,另外一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”。

我们先来看看常用的聚类性能度量外部指标。对数据集聚类与性能度量----机器学习,假定通过聚类给出的簇划分为聚类与性能度量----机器学习,参考模型给出的簇划分为聚类与性能度量----机器学习。相应的,令聚类与性能度量----机器学习聚类与性能度量----机器学习分别表示聚类与性能度量----机器学习聚类与性能度量----机器学习对应的簇标记向量,将样本两两配对考虑,定义:

聚类与性能度量----机器学习

其中集合SS包含了在聚类与性能度量----机器学习中属于相同簇并且在聚类与性能度量----机器学习中也属于相同簇的样本对,集合SD包含了在聚类与性能度量----机器学习中隶属相同簇但在聚类与性能度量----机器学习中隶属不同簇的样本,同理DS和SS的意思也可以知道。

以下为聚类性能度量外部指标:

1. Jaccard系数(JC):

聚类与性能度量----机器学习

2. FM指数(Fowlkes and Mallows Index,简称FMI):

聚类与性能度量----机器学习

3.  Rand指数(Rand Index,简称RI):

聚类与性能度量----机器学习

以上性能度量的值越大越好。

我们举个例子来结算一下:

聚类与性能度量----机器学习

通过上面这个例子,应该不难理解。 

 考虑聚类结果的簇划分聚类与性能度量----机器学习,定义:

聚类与性能度量----机器学习

其中聚类与性能度量----机器学习用于计算两个样本之间的距离,聚类与性能度量----机器学习代表簇聚类与性能度量----机器学习的中心点聚类与性能度量----机器学习。avg(C)对应于簇C内样本间的平均距离,diam(C)对应于簇C内样本的最远距离,聚类与性能度量----机器学习对应于簇聚类与性能度量----机器学习与簇聚类与性能度量----机器学习最近样本间的距离,聚类与性能度量----机器学习对应于簇聚类与性能度量----机器学习与簇聚类与性能度量----机器学习中心点之间的距离。

常用的聚类性能度量内部指标为:

聚类与性能度量----机器学习

其中DBI的值越小越好,而DI的值越大越好。

上面提到多的聚类与性能度量----机器学习计算距离的函数。计算距离的公式有很多种,对于给定样本聚类与性能度量----机器学习聚类与性能度量----机器学习,最常用的是“闵可夫斯距离”:

聚类与性能度量----机器学习

当p=2的时候,变为欧式距离:

聚类与性能度量----机器学习

当p=1的时候,变为曼哈顿距离:

聚类与性能度量----机器学习