文件名称:基于Heritrix的web信息抽取优化与实现 (2012年)
文件大小:2.7MB
文件格式:PDF
更新时间:2024-06-17 18:59:47
工程技术 论文
针对Heritrix抓取速度很慢的问题,运用ELFHash算法对Heritrix进行了多线程的优化,增加爬取线程数,实现了对指定网页精确的抓取,从而提高网页抓取的速度。实验表明本文的优化技术可行。
文件名称:基于Heritrix的web信息抽取优化与实现 (2012年)
文件大小:2.7MB
文件格式:PDF
更新时间:2024-06-17 18:59:47
工程技术 论文
针对Heritrix抓取速度很慢的问题,运用ELFHash算法对Heritrix进行了多线程的优化,增加爬取线程数,实现了对指定网页精确的抓取,从而提高网页抓取的速度。实验表明本文的优化技术可行。