文件名称:推荐系统-qt监视文件和目录变化(qfilesystemwatcher的使用)
文件大小:1.79MB
文件格式:PDF
更新时间:2024-06-28 18:05:39
机器学习
一、为什么我们要开发大规模主题模型训练 系统 Peacock? 1.1 短文本相关性 在自然语言处理和信息检索中,我们常常会遇到如下问题:给定查询词,计算查询词和文档 之间的相关性。比如表 1 给出了 2 个具体例子,此时我们需要计算短文本之间的相关性。常 用的计算方法就是不考虑词的相对顺序,使用 BOW(Bag-Of-Words)模型把文档表示为词向 量,然后计算文本之间的相似度。如果直接采用文档中词的 TF-IDF 构建文档特征向量,通 过计算查询词特征向量和文档特征向量的余弦夹角,我们会发现 Q1 与 D1、D2 都相关,而 Q2 与 D1、D2 都不相关。显然,这与人对自然语言的理解并不相符:Q1 和 D2 比较相关, 都关于“苹果”这种水果;而 Q2 和 D1 比较相关,都关于“苹果”公司。 表 1 短文本相关性 Q1 (关于”苹果”水果) apple pie Q2 (关于”苹果”公司) iphone crack D1 (关于”苹果”公司) Apple Computer Inc. is a well know company located in California, USA. D2 (关于”苹果”水果) The apple is the pomaceous fruit of the apple tree. 之所以会出现这种差异,是因为上述文档特征向量构建方法没有“理解”文档的具体语义信 息,单纯的将文档中的词表示为一个 ID 而已。通过主题模型,文档可以表示为一个隐含语 义空间上的概率分布向量(主题向量),文档主题向量之间的余弦夹角就可以一定程度上反 映文档间的语义相似度了。 1.2 推荐系统 图 1 用户-物品矩阵