论文研究-面向增量同生主题的*文爬虫的研究.pdf

时间:2022-08-11 17:04:04
【文件属性】:

文件名称:论文研究-面向增量同生主题的*文爬虫的研究.pdf

文件大小:851KB

文件格式:PDF

更新时间:2022-08-11 17:04:04

网络爬虫,网页分类,IC主题模型,锚文本,*文

针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的*文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述*文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的*文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。


网友评论