ARI聚类效果评价指标

聚类效果有一个评价指标，ARI（Adjusted Rand Index）。这个指标不考虑你使用的聚类方法，把你的方法当做一个黑箱，只注重结果。可以说，是一个十分“功利”的指标。

1.Rand index

在讲ARI之前呢，先讲述一下RI，也就是rand index，从两者的名字也可以看出来，这是ARI的祖宗版。

ARI聚类效果评价指标

这里，我们解释一下a,b,c,d分别代表什么。a呢就是说应该在一类，你最后聚类到一类的数量，b呢就是不应该在一类，你最后聚类结果也没把他们聚类在一起的数量。c和d那么就是应该在一起而被分开的和不应该在一起而*住在一起的。毕竟强扭的瓜不甜，c和d固然是错误的。所以从R的表达式中可以看出，我们只认为a和b是对的，这样能够保证R在0到1之间，而且，聚类越准确，指标越接近于1.

这里有一个关键性的问题，就是什么叫数量？你怎么去计算？准确的说，是配对的数量。比如说a是应该在一起而真的幸福的在一起了的数量，这显然就应该像人类一样按照小夫妻数量计算，但是我们的样本可不管一夫一妻制，任意选两个就是一个配对，所以，就是n(n-1)/2这样来计算，也就是组合数，n个当中选两个的选法。同时我们看到，分母其实是所有配对的总和，所以，我们最后可以写成这样：

ARI聚类效果评价指标