机器学习整理-聚类

时间:2024-01-24 08:33:59

什么是聚类?

聚类分析是将数据集分组,使得同一组内的数据相比与其他组的数据更相似。

聚类有哪些应用?

市场分割:根据客户的消费记录进行聚类,进而合理地推荐
基因分组:根据基因的表达模式进行聚类,用于分析基因功能。
医学图像分割:将肿瘤图像中的像素进行聚类,用于自动分割出肿瘤部分
自然图像分割:基于图像的模式识别的重要数据预处理步骤。

什么是K均值(K-Means)聚类算法?

image.png
例题

K均值(K-Means)聚类算法优缺点?

依赖类别数K的选择
依赖初始类中心的选择
对异常点和孤立点敏感
K-Means++:优化了初始化时选择类中心的方法,避免类中心过于集中。
对于数据集中的每个点 x,计算它到最近中心的距离 D(x)。
image.png

什么是K中心点(K-Medoids)聚类算法?

image.png
更新类中心

  1. 计算每个类别内所有样本点到其中一个样本点的曼哈顿距离和
  2. 选出绝对误差最小的样本点,即跟同类别其他样本点最相似的样本点,作为作为新的类中心
    曼哈顿距离:每个维度的距离和。
    image.png

什么是层次聚类算法?

image.png