第4章基于近邻推荐方法综述
4.1 用户反馈类型:
分级反馈(评分)
二元反馈(喜欢/不喜欢)
一元反馈(购买、浏览)
4.1.1评测推荐系统效果
对于评分集合,常用测试预测准确性的标准分别为
平均绝对误差(MAE)、均方根误差(RMAE)
对于二元反馈,常用准确率(precision)和召回率(recall)
4.1.2推荐方法概要
基于内容方法(Rocchio算法)
问题:受限内容分析(limitedcontent analysis)、特化(over-specialization)
协同过滤方法:除了用户评分的物品,还有其他用户评分的物品。分为基于近邻方法和基于模型方法。
可以克制基于内容方法的一些局限:物品内容缺乏时,使用其他用户的反馈推荐给用户,可以推荐内容差异很大的物品。
基于近邻系统直接使用已有数据,基于模型系统使用评分来学习预测模型。
基于模型方法包括:
贝叶斯聚类(BayesianClustering)
潜在语义分析(latent semantic analysis)
潜在狄利克雷分布(latentDirichlet Allocation)
最大熵(maximum Entropy)
波尔兹曼机(Boltzmann Machines)
支持向量机(Support vector machines)
奇异值分解(SingularValue Decomposition)
基于近邻方法的一些优势:简单性、合理性、高效性、稳定性
4.2基于近邻推荐
基于用户评分
基于用户分类
回归与分类
基于物品推荐
4.2.5 基于用户和基于物品推荐的对比
准确性
效率
稳定性
合理性
惊喜度
4.3 近邻方法的要素
评分标准化方法:
均值中心化:通过与平均分的比较决定一个评分为正或者为负
Z-score标准化:考虑个人评分范围不同带来的偏差
4.3.3 近邻的选择
过滤预选近邻数:Top-N过滤、阈值过滤、负值过滤
4.4 高级进阶技术
基于近邻的方法的缺陷:覆盖受限、对稀疏数据的敏感
解决方法:
降维方法:对评分矩阵进行分解和对相似性矩阵进行分解
基于图方法:基于路径的相似度和随机游走相似度
本文为学习笔记,参考资料为:
《推荐系统 技术、评估及高效算法 Recommender System handbook》 Francesco Ricci Lior Rokach 机械工业出版社
欢迎交流与分享