轮廓系数法,选择使系数较大所对应的k值
计算样本 i 到同簇其他样本的平均距离 ai。ai 越小,说明样本 i 越应该被聚类到该簇。将 ai 称为样本i的簇内不相似度。 簇 C 中所有样本的 ai 均值称为簇 C 的簇不相似度。
计算样本i到其他某簇Cj 的所有样本的平均距离bij,称为样本i与簇 Cj 的不相似度。定义为样本i的簇间不相似度:bi =min{bi1, bi2, …, bik} 。bi越大,说明样本i越不属于其他簇。
轮廓系数
s ( i ) = b ( i ) − a ( i ) max { a ( i ) , b ( i ) } s ( i ) = { 1 − a ( i ) b ( i ) , a ( i ) < b ( i ) 0 , a ( i ) = b ( i ) b ( i ) a ( i ) − 1 , a ( i ) > b ( i ) s(i)=\frac{b(i)-a(i)}{\max \{a(i), b(i)\}} \quad s(i)=\left\{\begin{array}{cc}1-\frac{a(i)}{b(i)}, & a(i)<b(i) \\0, & a(i)=b(i) \\\frac{b(i)}{a(i)}-1, & a(i)>b(i)\end{array}\right. s(i)=max{a(i),b(i)}b(i)−a(i)s(i)=⎩⎪⎨⎪⎧1−b(i)a(i),0,a(i)b(i)−1,a(i)<b(i)a(i)=b(i)a(i)>b(i)
判断:
- 轮廓系数范围在[-1,1]之间。该值越大,越合理。
- si接近1,则说明样本i聚类合理;
- si接近-1,则说明样本i更应该分类到另外的簇;
- 若si 近似为0,则说明样本i在两个簇的边界上。
所有样本的si的均值称为聚类结果的轮廓系数,是该聚类是否合理、有效的度量。 选择使系数较大所对应的k值。