文件名称:nutch爬虫说明文档
文件大小:178KB
文件格式:DOC
更新时间:2012-02-26 09:40:57
nutch
Nutch Nutch 的爬虫有两种方式 爬行企业内部网(Intranet crawling:针对少数网站进行,用 crawl 命令。 爬行整个互联网:使用低层的 inject, generate, fetch 和 updatedb 命令,具有更强的可控制性。 有研究或探讨的请加群:37424970 或联系本人MSN或邮箱:zhuseahui@yahoo.com.cn