基于Heritrix的web信息抽取优化与实现 (2012年)

时间:2024-06-17 18:59:47
【文件属性】:

文件名称:基于Heritrix的web信息抽取优化与实现 (2012年)

文件大小:2.7MB

文件格式:PDF

更新时间:2024-06-17 18:59:47

工程技术 论文

针对Heritrix抓取速度很慢的问题,运用ELFHash算法对Heritrix进行了多线程的优化,增加爬取线程数,实现了对指定网页精确的抓取,从而提高网页抓取的速度。实验表明本文的优化技术可行。


网友评论