2.搜索之路——Nutch搭建

时间:2022-01-16 20:09:30

2.搜索之路——Nutch搭建

1     官方连接和下载地址

https://nutch.apache.org/

https://nutch.apache.org/downloads.html

2     下载后解压

蛤蟆此处使用的是windows.

解压压缩包apache-nutch-2.3.1-src.gz

得到如下文件

build.xml

 CHANGES.txt

 conf

 default.properties

 docs

 ivy

 lib

 LICENSE.txt

 NOTICE.txt

 src

将src文件夹中的文件夹复制到Eclipse的JAVA项目中刷新。

此时会出现红色的感叹号。

3     关于ANT

ant是目前java环境下最好用的打包部署工具,其采用xml的格式进行编写,功能非常强大。

下载地址:http://ant.apache.org/bindownload.cgi

       可以在WINDWOS和LINUX下运行。

       Windows下只要将ant的bin路径设置到PATH变量即可。

4     环境准备

JAVA

TOMCAT

NUTCH

4.1     下载

Tomcat下载

http://tomcat.apache.org/download-90.cgi

5     TOMCAT

设置JAVA环境变量:(PS环境变量根据所安装的JAVA版本会有差异请注意)

JAVA_HOME=/usr/local/jdk1.6.0_05

JAVA_BIN=$JAVA_HOME/bin

PATH=$PATH:$JAVA_BIN

CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export JAVA_HOME JAVA_BIN PATH CLASSPATH

下载完毕后,解压运行bin文件夹中的startup.bat

浏览器中输入:http://127.0.0.1:8080/ 访问正常,说明HTTP服务起来了。

Tomcat的网页主目录是/webapps/

Tomcat服务器端口是8080

6     Nutch

解压下载的Nutch包,解压

#tar –xvf apache-nutch-2.3.1.tar.gz

#cd apache-nutch-2.3.1/bin

执行

#./nutch

将nutch所在路径加入到PATH变量中。

6.1     设置NUTCH

创建urls文件夹

创建文件urls_crawl.txt

编辑加入入口网站。

bin/nutch crawl urls_crawl.txt  -depth 2 -thread 2 -topN 2 >&craw1.log(在Nutch2.3.1后已可以)

-dir   dirnames 设置保存所抓取网页的目录.

-depth  depth    表明抓取网页的层次深度

-delay  delay    表明访问不同主机的延时,单位为“秒”

-threads  threads   表明需要启动的线程数

-topN  1000   表明只抓取每一层的前N个URL