推荐系统学习笔记(四)

时间:2022-08-29 21:35:22

第4章基于近邻推荐方法综述

        

4.1 用户反馈类型:

分级反馈(评分)

  二元反馈(喜欢/不喜欢)

  一元反馈(购买、浏览)


4.1.1评测推荐系统效果

对于评分集合,常用测试预测准确性的标准分别为

平均绝对误差(MAE)、均方根误差(RMAE)

对于二元反馈,常用准确率(precision)和召回率(recall)

 

 4.1.2推荐方法概要

基于内容方法(Rocchio算法)

        问题:受限内容分析(limitedcontent analysis)、特化(over-specialization)

 

协同过滤方法:除了用户评分的物品,还有其他用户评分的物品。分为基于近邻方法和基于模型方法。

 

可以克制基于内容方法的一些局限:物品内容缺乏时,使用其他用户的反馈推荐给用户,可以推荐内容差异很大的物品。

 

基于近邻系统直接使用已有数据,基于模型系统使用评分来学习预测模型。


基于模型方法包括:

贝叶斯聚类(BayesianClustering)

潜在语义分析(latent semantic analysis)

潜在狄利克雷分布(latentDirichlet Allocation)

最大熵(maximum Entropy)

波尔兹曼机(Boltzmann Machines)

支持向量机(Support vector machines)

奇异值分解(SingularValue Decomposition)

 

基于近邻方法的一些优势:简单性、合理性、高效性、稳定性

 

4.2基于近邻推荐

基于用户评分

基于用户分类

回归与分类

基于物品推荐

        

4.2.5 基于用户和基于物品推荐的对比

         准确性

         效率

         稳定性

         合理性

         惊喜度

 

4.3 近邻方法的要素

          评分标准化方法:

         均值中心化:通过与平均分的比较决定一个评分为正或者为负

         Z-score标准化:考虑个人评分范围不同带来的偏差

 

4.3.3 近邻的选择

         过滤预选近邻数:Top-N过滤、阈值过滤、负值过滤

 

4.4 高级进阶技术

         基于近邻的方法的缺陷:覆盖受限、对稀疏数据的敏感

         解决方法:

降维方法:对评分矩阵进行分解和对相似性矩阵进行分解

         基于图方法:基于路径的相似度和随机游走相似度



本文为学习笔记,参考资料为:

《推荐系统  技术、评估及高效算法  Recommender System handbook》 Francesco Ricci Lior Rokach  机械工业出版社

欢迎交流与分享