论文研究-主题搜索引擎中爬虫搜索策略的研究.pdf

时间:2022-10-02 04:22:34
【文件属性】:

文件名称:论文研究-主题搜索引擎中爬虫搜索策略的研究.pdf

文件大小:539KB

文件格式:PDF

更新时间:2022-10-02 04:22:34

论文研究

为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。


网友评论