评价一个推荐系统的好坏的重要性不用多少。本文的总结非常的全面,相信读者通过阅读本文以及本文参考的文献可以对推荐系统的评价指标有比较全面的掌握。
对推荐系统的研究一个重要的环节是如何评价一个推荐算法的好坏。关于推荐系统评价的研究很多,文献[1,2,3]在不同程度对评价方法进行了总结。评价方法分为离线评估,用户调查,在线评估。由于用户调查和在线评估代价要求高,目前大多数的研究采用的是离线测试。其中文献[3]总结了离线评价中用到的指标,包括准确度指标、基于排序加权的指标、覆盖率、多样性和新颖性等。本文的研究工作采用了几种离线评估指标。将其归纳为准确性指标和非准确性指标。下面分别给予简单介绍。
为了方便描述评价指标,下表对后面会用到的符号进行简单说明。
1 准确性指标
准确性指标是推荐系统中最重要的指标。最常使用的准确性指标包括准确率和召回率。
1)准确率[3]。推荐列表中用户喜欢的物品所占的比例。针对单个用户u的推荐准确率:
整个系统的准确率为:
2)召回率[3]。测试集中有多少用户喜欢的物品出现在推荐列表中。针对单个用户u的推荐召回率:
整个系统的召回率为:
3)F1-Measure。F-Measure又称为F-Score,是IR(信息检索)领域的常用的一个评价标准,计算公式为:
以上的准确性指标是只从整个推荐列表的推荐用户是否喜欢这种二值情况考虑的。除此之外,针对评分(比如0-5分制)的评估主要还有:
- RMSE (均方根误差);
其中Ωtest为测试集;yij为用户i对物品j的实际评分,y^ij为预测评分。
- MAE (平分绝对误差):
- Normalized Lpnorm:
准确性指标局限性:
- 不适合评估排序性能。关于排序的性能,推荐大家参考我的另一篇博客: http://blog.csdn.net/allenalex/article/details/78161915
- 离线的准确率的提高并不意味着实际线上系统效果的提高。
2 非准确性指标
2.1.用户级非准确性指标
其中similarity(i,j)可以本博主的另一篇博文《推荐系统中的相似度计算方法总结》介绍的相似度计算方法来计算。求系统中所有用户的推荐列表列内的所有物品的平均相似度的平均值得到整体(推荐列表)列内相似度:
IntraSimilarity值越大,说明用户的推荐列表内的物品之间总体平均相似度越高,也就是系统整体的个体多样性越低。
2)新颖性[4]。评估新颖性最简单的方法是计算推荐列表中物品的平均流行度:
整个系统的新颖性为:
2.2.系统级的非准确性指标
2)覆盖率[6]。覆盖率测量的是推荐系统推荐给所有用户的物品数占总物品数的比例。
【参考文献】
[1] Sarwar B, G. Karypis, JKonstan,et al. Item-based Collaborative Filtering Recommendation Algorithms. In: Proceedings of the 10th International WWW Conference. New York:ACM,2001,285-295.
[2] Zanker M, Felfernig A, Friedrich G. Recommender systems: an introduction[M]. Cambridge:Cambridge University Press, 2011,124-142.
[3] 朱郁筱, 吕琳媛.推荐系统评价指标综述.电子科技大学学报, 2012, 41(2): 163-175.
[4] L.-T. Weng,Y. Xu, Y. Li et al. Improving recommendation novelty based on topic taxonomy. In: IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology. Washington: ACM, 2007, 115–118.
[5]C.Ziegler, S.M. McNee, J. A. Konstan et al. Improving recommendation lists through topic diversification. In: Proceedings of the 14th International Conference on World Wide Web. Chiba: ACM, 2005, 22-32.[6] Ge M, Delgado-Battenfeld,Jannach D. Beyond accuracy: Evaluating recommender systems by coverage and serendipity. In:RecSys (2010): the 2010 ACM conference on Recommender systems. Barcelona:ACM,2010,257-260.