文件名称:论文研究-基于信息增益的自适应主题爬行策略.pdf
文件大小:204KB
文件格式:PDF
更新时间:2022-08-11 17:49:25
主题爬行,*,主题描述,自适应方法,信息增益
结合信息增益,提出了一种新的自适应主题爬行策略。利用*的分类树和主题描述文档构建主题向量T,并在爬行过程中不断地进行自动学习,反馈更新主题向量空间中每个概念的权重,完善主题描述。实验结果表明,该方法具有增量爬行的能力,并在信息量总和上明显优于基于the interest ratio的自适应策略;且前者所爬取的网页更接近于与主题相关。