文件名称:Master-Thesis-2015-Contextual-Multi-Armed-Bandits
文件大小:57.24MB
文件格式:ZIP
更新时间:2024-06-23 18:48:59
HTML
强盗排名概览 以众包版本的“质量”对评论进行排名的问题是互联网上常见的问题。 James Neufeld 建议 [1] 贝叶斯 Bandit 算法可以应用于这个问题。 基本思想是您将定义一个随机质量指标,其每个评论的分布取决于评论收到的赞成票和反对票。 普通排名算法尝试估计此质量指标的单个最佳值。 Neufeld 建议,这个值应该从一个 beta 分布中采样,该分布对假设用户完全标记了评论而积极标记评论的概率进行建模。 为了向用户呈现评论,将对每条评论独立采样该指标,并根据结果分数对评论进行排序。 不同的展示必然会导致不同的顺序,但是当用户对评论进行正面或负面标记时,顺序应该收敛到列表顶部附近呈现的评论最有可能被标记为正面的顺序。 这种方法的一个非常好的事情是它不会浪费任何周期来确定低质量评论的排名。 一旦确定这些评论的质量相对低于最好的专栏,就不需要对这些评论进行更多的学习。 这极