文件名称:Nutch相关框架视频教程 讲义 杨尚川
文件大小:76KB
文件格式:DOCX
更新时间:2021-11-13 10:25:44
爬虫 nutch 框架
1、 通过nutch,诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理(1.2之后)。 3、 nutch是使用svn进行源代码管理的。 4、 lucene、nutch、hadoop,在搜索界相当有名。 5、 ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式。 6、 nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。 7、 nutch入门重点在于分析nutch脚本文件