《机器学习》--周志华 (第九章学习笔记)

时间:2022-08-24 04:24:34

聚类

聚类任务

目标:将数据样本划分为若干个通常不相交的“簇”

聚类任务既可以作为一个单独过程(用于找寻数据内在的分布结构)

也可以作为分类等其他学习任务的前驱过程。

性能度量

聚类性能度量,亦称聚类“有效性指标”

  • 外部指标

    将聚类结果与某个“参考模型”进行比较

  • 内部指标

    直接考察聚类结果而不用任何参考模型

    《机器学习》--周志华 (第九章学习笔记)

    《机器学习》--周志华 (第九章学习笔记)

《机器学习》--周志华 (第九章学习笔记)

距离计算

距离度量需满足的基本性质

《机器学习》--周志华 (第九章学习笔记)

  • 常见聚类方法
    • 原型聚类
    • 原型聚类
      • 亦称“基于原型的聚类”
      • 假设:聚类结构能通过一组原型刻画
      • 过程:先对原型初始化,然后对原型进行迭代更新求解
      • 代表:k均值聚类,学习向量量化
    • 密度聚类
      • 亦称 “基于密度的聚类”
      • 假设:聚类结构能通过样本分布的紧密程度确定
      • 过程:从样本密度的角度来考察样本之间的可连续性,并基于可连续样本不断扩展聚类簇
      • 代表: DBSCAN
    • 层次聚类
      • 假设:能够产生不同粒度的聚类结果
      • 过程:在不同层次对数据集进行划分,从而形成树形的聚类结构
      • 代表:AGNES

K均值聚类法

  • 随机选取k个样本点作为簇中心
  • 将其他样本点根据其与簇中心的距离,划分给最近的簇
  • 更新各簇的均值向量,将其作为新的簇中心
  • 若所有簇中心未发生改变,则停止;否则执行第二步

DBSCAN

《机器学习》--周志华 (第九章学习笔记)

AGNES

  • 将每个样本点作为一个簇

  • 合并最近的两个簇

  • 若所有样本点都存在与一个簇中,则停止;否则回到第二步。