文件名称:论文研究-基于分层结构保留的增量网络爬虫算法.pdf
文件大小:3.15MB
文件格式:PDF
更新时间:2022-08-11 13:59:29
网络爬虫,URL过滤器,层次结构保存,频率模型
为了提高目前爬虫算法抓取结果的有效性, 提出了一种旨在获取有效信息的改进网络爬虫算法, 主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中, 网络资源定位符被分层存储, 在保留信息全部拓扑关系的基础上, 将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下, 实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据, 结果表明, 改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此, 分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。