评价推荐系统的首要离线指标

通过将单个用户的准确率(或召回率)做累加，即得到整个推荐系统的准确率(或召回率)，该离线指标常常用于比较各个推荐系统之间的优劣。

如下：R(u)是给用户u作出的推荐列表，而T(u)是用户在测试集上真正的行为列表。

推荐系统 - 2 - 离线指标和其他指标

左图是单个用户的准确率(如：给用户推荐对的数量/推荐的总数量)，右图是所有用户的准确率

推荐系统 - 2 - 离线指标和其他指标

左图是单个用户的召回率(如：给用户推荐对的数量/用户喜欢的数量)，右图是所有用户的召回率。

最后利用Precision和Recall组合成F测度，如下：

推荐系统 - 2 - 离线指标和其他指标

F测度就是评价推荐系统的首要离线指标。

评价推荐系统的其他指标

R(u)是给用户u作出的推荐列表，而T(u)是用户在测试集上真正的行为列表。

覆盖率：

推荐系统 - 2 - 离线指标和其他指标

这是什么意思？意思是，对用户1推荐了一个列表，对用户2推荐了一个列表，其他同理，最后所有用户的推荐列表的集合可以把网站的所有商品全部覆盖，因为不这样的话，越冷门的商品会推荐的越来越少最后为0，这可不行。

当然，考虑不同商品出现的次数(概率)，则可用信息熵或基尼系数(见我总结的最大熵模型)：

推荐系统 - 2 - 离线指标和其他指标

多样性：

推荐系统 - 2 - 离线指标和其他指标

如：我总是看数据挖掘的书，然后你给我推荐个机器学习的书，那这个推荐因为相似度很近，所以该推荐多样性很差。

惊喜度(serendipity)：满意度/相似度

用户惊喜来自于和用户喜欢的物品不相似，但用户却觉得满意的推荐。

如：我总是看数据挖掘的书，然后你给我推荐个机器学习的书，那我可能觉得这个推荐很平常，但如果你给我推荐个啤酒，而我真的超喜欢喝啤酒，那我就会很惊喜。

1，“评价推荐系统的首要离线指标”和“评价推荐系统的其他指标”是相互矛盾但却是相辅相成的，具体的度自己把握。

2，有时候适当提高非流行商品的权值效果会很好。