聚类
聚类任务
目标:将数据样本划分为若干个通常不相交的“簇”
聚类任务既可以作为一个单独过程(用于找寻数据内在的分布结构)
也可以作为分类等其他学习任务的前驱过程。
性能度量
聚类性能度量,亦称聚类“有效性指标”
-
外部指标
将聚类结果与某个“参考模型”进行比较
-
内部指标
直接考察聚类结果而不用任何参考模型
距离计算
距离度量需满足的基本性质
- 常见聚类方法
- 原型聚类
- 原型聚类
- 亦称“基于原型的聚类”
- 假设:聚类结构能通过一组原型刻画
- 过程:先对原型初始化,然后对原型进行迭代更新求解
- 代表:k均值聚类,学习向量量化
- 密度聚类
- 亦称 “基于密度的聚类”
- 假设:聚类结构能通过样本分布的紧密程度确定
- 过程:从样本密度的角度来考察样本之间的可连续性,并基于可连续样本不断扩展聚类簇
- 代表: DBSCAN
- 层次聚类
- 假设:能够产生不同粒度的聚类结果
- 过程:在不同层次对数据集进行划分,从而形成树形的聚类结构
- 代表:AGNES
K均值聚类法
- 随机选取k个样本点作为簇中心
- 将其他样本点根据其与簇中心的距离,划分给最近的簇
- 更新各簇的均值向量,将其作为新的簇中心
- 若所有簇中心未发生改变,则停止;否则执行第二步
DBSCAN
AGNES
将每个样本点作为一个簇
合并最近的两个簇
-
若所有样本点都存在与一个簇中,则停止;否则回到第二步。