一、现有评价指标调研
1、推荐系统实验方法
在介绍评价指标之前,先讨论下计算和获取这些指标的主要实验方法。
(1)离线实验
离线实验一般有如下步骤:
S1 通过日志系统获取用户行为数据,并按照一定格式生成数据集;
S2 将数据集分成训练集和测试集;
S3 在训练集上训练用户兴趣模型,在测试机上进行预测;
S4 通过预先定义的离线评测指标,评价测试集上的预测结果;
优点:不需要用户实际参与,不需要对系统进行修改,速度快,可测试大量算法。
缺点:结果并没有真实展示给用户,有一些商业上的指标(转换率等)也无法计算。
(2)在线实验
通过一定规则将用户分成几组,然后通过不同组用户的不同评价指标比较不同算法,如点击率等。
核心思想:
1)多个方案并行;2)只有一个变量不同;3)以某种规则优胜劣汰。
缺点是时间比较长,需要统计日志数据,通过评测系统生成不同组的评测报告。
一般采用80/20评价,及20%的用户用来试验评测,80%的是常规方案
(3)用户调查
了解真实用户对系统的满意度等。
2、评价指标
目前主要有以下指标,其中最重要的是预测准确度。
(1)用户满意度
只能通过用户调查或者在线实验获得。在一般情况下,可以通过点击率、用户停留时间、转换率等指标来衡量。
(2)预测准确度
一个推荐系统预测用户行为的能力,是最重要的评测指标,可用准确率和召回率度量。
(3)覆盖率
描述推荐系统对物品长尾的发掘能力,最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。
假设系统的用户集合为U,为每个用户推荐的物品列表R(u),则覆盖率计算公式如下:
为了更细致的描述推荐系统挖掘长尾的能力,需要统计推荐列表中不同物品出现次数的分布。
(4)多样性
为了满足用户广泛的兴趣,推荐列表需要覆盖用户不同的兴趣领域,即推荐结果要具有多样性。
我们现在是按照topic、实体词来推的。可能不太涉及。很多推荐系统是用物品推的,需要衡量不同物品间的不相似度。
(5)新颖性
是指给用户推荐那些以前没听说过的物品。最简单的办法是用物品的评价流行度来衡量。
(6)惊喜度
和信任度一样,没有公认的评价指标公式。定性衡量是:为用户推荐这样的物品:和用户历史上喜欢的物品不相似,
但用户决定满意的物品。列出来是因为这也是我们以后努力的方向之一。
(7)信任度
按照我的理解,就是用户知道自己的某种需求,能够通过使用推荐系统得到满足。
参考文献:《推荐系统实践》《推荐系统指标综述》