2.搜索之路——Nutch搭建

1 官方连接和下载地址

https://nutch.apache.org/

https://nutch.apache.org/downloads.html

2 下载后解压

蛤蟆此处使用的是windows.

解压压缩包apache-nutch-2.3.1-src.gz

得到如下文件

build.xml

CHANGES.txt

conf

default.properties

docs

ivy

lib

LICENSE.txt

NOTICE.txt

src

将src文件夹中的文件夹复制到Eclipse的JAVA项目中刷新。

此时会出现红色的感叹号。

3 关于ANT

ant是目前java环境下最好用的打包部署工具，其采用xml的格式进行编写，功能非常强大。

下载地址：http://ant.apache.org/bindownload.cgi

可以在WINDWOS和LINUX下运行。

Windows下只要将ant的bin路径设置到PATH变量即可。

4 环境准备

JAVA

TOMCAT

NUTCH

4.1 下载

Tomcat下载

http://tomcat.apache.org/download-90.cgi

5 TOMCAT

设置JAVA环境变量：（PS环境变量根据所安装的JAVA版本会有差异请注意）

JAVA_HOME=/usr/local/jdk1.6.0_05

JAVA_BIN=$JAVA_HOME/bin

PATH=$PATH:$JAVA_BIN

CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export JAVA_HOME JAVA_BIN PATH CLASSPATH

下载完毕后，解压运行bin文件夹中的startup.bat

浏览器中输入：http://127.0.0.1:8080/ 访问正常，说明HTTP服务起来了。

Tomcat的网页主目录是/webapps/

Tomcat服务器端口是8080

6 Nutch

解压下载的Nutch包，解压

#tar –xvf apache-nutch-2.3.1.tar.gz

#cd apache-nutch-2.3.1/bin

执行

#./nutch

将nutch所在路径加入到PATH变量中。

6.1 设置NUTCH

创建urls文件夹

创建文件urls_crawl.txt

编辑加入入口网站。

bin/nutch crawl urls_crawl.txt -depth 2 -thread 2 -topN 2 >&craw1.log(在Nutch2.3.1后已可以)

-dir dirnames 设置保存所抓取网页的目录.

-depth depth 表明抓取网页的层次深度

-delay delay 表明访问不同主机的延时，单位为“秒”

-threads threads 表明需要启动的线程数

-topN 1000 表明只抓取每一层的前N个URL

秒客网

2.搜索之路——Nutch搭建