文件名称:论文研究-基于最优查询的多领域deepWeb爬虫.pdf
文件大小:384KB
文件格式:PDF
更新时间:2022-08-11 14:20:37
deep Web,deep Web爬虫,最优查询,页面聚类
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明系统能自动、高效地完成多领域deep Web数据爬取。