文件名称:基于 LDA 模型的博客垃圾评论发现
文件大小:1015KB
文件格式:PDF
更新时间:2018-11-29 03:42:06
LDA 垃圾博客
Blo g 已经成为互联网上的主要信息源之一, 这也使得 Blo g 空间中的垃圾评论成倍增长, 因此如何识别垃圾评论成为面临的重要问题。 该文首先借鉴处理垃圾邮件的方法, 针对 Blog 本身的特点, 使用规则初步过滤垃圾评论, 然后对剩余评论, 利用 Latent Dirichlet Allocatio n( LDA)这种能够提取文本隐含主题的产生式模型, 对博客中的博文进行主题提取, 并结合主题信息进行判断, 从而识别 Blog 空间的垃圾评论。