机器学习聚类算法简介

时间:2024-04-13 19:19:46

算法的目的 :

聚类算法是“无监督学习”中最常用的一个算法,通过对无标记训练样本的学习将数据集划分成若干个不相交的子集,来解释数据的内在性质以及规律,为进一步数据分析提供基础。也可以作为一个单独的过程,寻找数据内在的分布结构

注意 : 类所对应的概念语义需要由使用者自己把握和命名。

对于一个算法的评估我们需要对这种算法进行量化,比如手对于一般的基础算法,我们有时间复杂度、空间复杂度进行度量,对于监督学习我们用答对率和预测误差进行度量,当然聚类算法也需要一个数值化的方法对其性能进行度量

算法的性能度量

度量分为两种方法,一个是依赖外部的某个“参考模型”经行比较,成为 “外部指标”,另一个是直接参考聚类的结果而不是参考其他模型,称之为“内部指标”。

1.外部指标

机器学习聚类算法简介

机器学习聚类算法简介

外部指标一般就是通过这三个指标经行衡量

2.内部指标

机器学习聚类算法简介

机器学习聚类算法简介

摘自 : 周志华<<机器学习>>

距离计算

对于上面的 dist (xi,xj) 是有距离计算公式的 我们来看一下数学中对于距离的一般定义
1. 距离具有非负性(所有的距离大于等于0)
2. 距离具有同一性 (到自己的距离为0)
3. 距离具有对称性 (i到j与j到i的距离相等)
4. 定义距离满足三角形不等式 (直递性)

一般对于可度量的量我们使用闵可夫斯基距离 :
机器学习聚类算法简介

对于 p = 1 变成了曼哈顿距离
p=2则是欧几里德距离

对于不可以度量的我们则采用 VDM 距离

机器学习聚类算法简介

上面便是聚类算法的基本的一些介绍