《机器学习》--周志华（第九章学习笔记）

时间：2022-08-24 04:24:34

聚类

聚类任务

目标：将数据样本划分为若干个通常不相交的“簇”

聚类任务既可以作为一个单独过程（用于找寻数据内在的分布结构）

也可以作为分类等其他学习任务的前驱过程。

性能度量

聚类性能度量，亦称聚类“有效性指标”

外部指标

将聚类结果与某个“参考模型”进行比较
内部指标

直接考察聚类结果而不用任何参考模型

《机器学习》--周志华（第九章学习笔记）

距离计算

距离度量需满足的基本性质

《机器学习》--周志华（第九章学习笔记）

常见聚类方法
- 原型聚类
- 原型聚类
  - 亦称“基于原型的聚类”
  - 假设：聚类结构能通过一组原型刻画
  - 过程：先对原型初始化，然后对原型进行迭代更新求解
  - 代表：k均值聚类，学习向量量化
- 密度聚类
  - 亦称 “基于密度的聚类”
  - 假设：聚类结构能通过样本分布的紧密程度确定
  - 过程：从样本密度的角度来考察样本之间的可连续性，并基于可连续样本不断扩展聚类簇
  - 代表： DBSCAN
- 层次聚类
  - 假设：能够产生不同粒度的聚类结果
  - 过程：在不同层次对数据集进行划分，从而形成树形的聚类结构
  - 代表：AGNES

K均值聚类法

随机选取k个样本点作为簇中心
将其他样本点根据其与簇中心的距离，划分给最近的簇
更新各簇的均值向量，将其作为新的簇中心
若所有簇中心未发生改变，则停止；否则执行第二步

DBSCAN

《机器学习》--周志华（第九章学习笔记）

AGNES

将每个样本点作为一个簇
合并最近的两个簇
若所有样本点都存在与一个簇中，则停止；否则回到第二步。

标签：学习笔记机器学习学习笔记

相关文章

