推荐系统之评测指标

时间:2022-12-07 19:11:02

一、什么是推荐系统

信息量过载问题存在已久,对于信息消费者,从大量的信息中找到自己感兴趣的信息显然是一件非常困难的事情;对于信息生产者,让自己生产的信息能够准确的命中受用人群,也是一件非常困难的事情。推荐系统能够很好地解决信息生产者和消费者这一信息不对称的情况。推荐系统是通过分析用户行为日志对用户兴趣建模,挖掘出用户可能感兴趣的信息并推送给用户,满足用户对信息的需求。推荐系统和搜索引擎不同,推荐系统不需要用户提供明确的信息需求(即搜索引擎的一个查询式),推荐系统往往在用户浏览本网站的时候,就能在网页的某一区域显示一个符合用户兴趣的推荐列表,而这个推荐列表是推荐系统通过分析用户的历史数据得到的。推荐系统对于我们大多数人来说并不陌生,如百度搜索结果页右侧的相关物品推荐(图1是在百度搜索“推荐系统”结果页右侧区域截图)、

 推荐系统之评测指标

亚马逊的个性化推荐列表(图2)、

 推荐系统之评测指标

当当网的猜你喜欢(图3),

推荐系统之评测指标

还有社交网站的好友推荐、视频网站的视频推荐、个性化广告投放、个性化阅读等。

为什么推荐系统如此重要,看看下面的数据就明白了。亚马逊的前科学家Greg Linden在曾他的博客说过,在他离开亚马逊的时候,亚马逊至少有20%(之后的一篇博文则变为35%)的销售来自推荐算法。此外,亚马逊的前首席科学家Andreas Weigend在斯坦福的曾办过一次推荐系统的演讲,就听他讲座的同学透露,亚马逊有20%-30%的销售来自推荐系统。而国外视频网站Netflix在其宣传资料中宣称,有60%的用户是通过推荐系统找到自己感兴趣的电影和视频的。著名新闻阅读网站Digg在使用了推荐系统后,用户的digg总数提高了40%,用户的好友数平均增加24%,评论数增加了11%

 

 

二、评测指标

1、预测准确度。

预测准确度是最重要的离线评测指标,它是度量一个推荐系统或推荐算法预测用户行为的能力。根据研究方向的不同,预测准确度的具体指标也不同。

  •  评分预测准确度

该指标是衡量推荐算法预测的评分和用户实际评分的相近程度。推荐系统通过收集用户对物品的历史的评分数据建立兴趣模型,从而预测用户对将来看到的一个没有评过分的物品时会给这个物品多少分。评分预测准确度一般通过均方差(RMSE)和平均绝对误差(MAE)计算。

 推荐系统之评测指标推荐系统之评测指标

u,i分别表示测试集中的一个用户u和物品i,rui表示用户u对物品i的实际评分,ȓui是推荐系统给的评分。

 

  • 分类准确度

分类准确度指标衡量的是推荐系统能够正确预测用户喜欢或者不喜欢某个商品的能力。这个指标常被用来做TopN推荐,即网站给用户提供服务时一般是给用户一个个性化列表,这种推荐叫做TopN推荐。度量分类准确度最常用的指标有准确率(Precision)和召回率(Recall)。

         推荐系统之评测指标     推荐系统之评测指标

R(u)是根据用户在训练集上的行为给用户作出的推荐列表,而T(u)是用户在测试集上的行为列表。

  • 排序准确度

排序准确度指标度量推荐算法得到的有序推荐列表和用户对商品排序的统一程度。如在

比较两个推荐算法的时候,两个算法在推荐的5个商品中都有1个是用户感兴趣的,于是他们的推荐精确性都为0.2。但是算法A将用户喜欢的商品排在第1位,而算法B将用户喜欢的商品排在第5位,显然算法A更优越。可以使用平均排序分(average rank score)来度量推荐系统的排序准确度。对于某一用户u来说,商品α的排序分定义如下:

  推荐系统之评测指标

 Lu等于用户u未选择过的商品数目,luα为待预测商品α在用户u的推荐列表中的排名。举例来说,如果有1 000部影片是用户u没有选择过的,其中用户喜欢的电影《金陵十三钗》出现在用户u推荐列表的第10位,那么对于用户u而言电影《金陵十三钗》的排序分为

RSuα=10/1 000=0.01。将所有用户的排序分求平均即得到系统的排序分RS。排序分值越小,说明系统越趋向于把用户喜欢的商品排在前面。反之,则说明系统把用户喜欢的商品排在了后面。

 

2、用户满意度

用户作为推荐系统的参与者,其满意度是评测推荐系统最重要的指标之一。一般用户满意度通过用户调查或在线实验获得。在一定程度上,我们可以根据用户的购买率、点击率、用户停留时间、下载等指标度量用户的满意度。

 

3、覆盖率(coverage

覆盖率是指一个推荐系统向所有用户推荐的物品占所有物品的比例。同时该指标也描述了一个推荐系统对物品长尾的发掘能力。简单的覆盖率计算公式如下:

推荐系统之评测指标

U为系统的用户集合,R(u)推荐系统给每个用户推荐一个长度为N的物品列表

 

4、多样性

在实际应用中,即使一个准确率很高的推荐系统,也很难保证能够满足用户的广泛的兴趣。一个好的推荐系统应该向用户推荐准确率高并且又有用的商品。在推荐系统中,多样性体现在以下两个层次,用户间的多样性(inter-user diversity),衡量推荐系统对不同用户推荐不同商品的能力;另一个是用户内的多样性(intra-user diversity),衡量推荐系统对一个用户推荐商品的多样性。对于用户,可以用汉明距离(hamming distance)来衡量这两个用户推荐列表的不同程度,具体定义为:

  推荐系统之评测指标  

Qul(L)表示用户推荐列表中相同商品的个数。如果两个推荐列表是完全一致的,那么Hul(L)=0,,反之如果两个推荐列表没有任何重叠的商品则Hul=1。所有的用户对的汉明距离的平均值即是整个系统的汉明距离H(L)

用户内的多样性(intra-user diversity)可以用如下定义:

  推荐系统之评测指标

s(α,β)表示商品α 和 β 的相似度,系统的Intra-user diversity即是所有用户的平均值。I u越小,表明系统为用户推荐的商品的多样性越高,系统的多样性也就越大。

 

5、其他指标

新颖性、惊喜度、信任度、实时性、健壮性、商业目标。

 

 

参考文献

[1] 朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012.

[2] 项亮.推荐系统实践.人民邮电出版社,2012.