2.搜索之路——Nutch搭建
1 官方连接和下载地址
https://nutch.apache.org/downloads.html
2 下载后解压
蛤蟆此处使用的是windows.
解压压缩包apache-nutch-2.3.1-src.gz
得到如下文件
build.xml
CHANGES.txt
conf
default.properties
docs
ivy
lib
LICENSE.txt
NOTICE.txt
src
将src文件夹中的文件夹复制到Eclipse的JAVA项目中刷新。
此时会出现红色的感叹号。
3 关于ANT
ant是目前java环境下最好用的打包部署工具,其采用xml的格式进行编写,功能非常强大。
下载地址:http://ant.apache.org/bindownload.cgi
可以在WINDWOS和LINUX下运行。
Windows下只要将ant的bin路径设置到PATH变量即可。
4 环境准备
JAVA
TOMCAT
NUTCH
4.1 下载
Tomcat下载
http://tomcat.apache.org/download-90.cgi
5 TOMCAT
设置JAVA环境变量:(PS环境变量根据所安装的JAVA版本会有差异请注意)
JAVA_HOME=/usr/local/jdk1.6.0_05
JAVA_BIN=$JAVA_HOME/bin
PATH=$PATH:$JAVA_BIN
CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME JAVA_BIN PATH CLASSPATH
下载完毕后,解压运行bin文件夹中的startup.bat
浏览器中输入:http://127.0.0.1:8080/ 访问正常,说明HTTP服务起来了。
Tomcat的网页主目录是/webapps/
Tomcat服务器端口是8080
6 Nutch
解压下载的Nutch包,解压
#tar –xvf apache-nutch-2.3.1.tar.gz
#cd apache-nutch-2.3.1/bin
执行
#./nutch
将nutch所在路径加入到PATH变量中。
6.1 设置NUTCH
创建urls文件夹
创建文件urls_crawl.txt
编辑加入入口网站。
bin/nutch crawl urls_crawl.txt -depth 2 -thread 2 -topN 2 >&craw1.log(在Nutch2.3.1后已可以)
-dir dirnames 设置保存所抓取网页的目录.
-depth depth 表明抓取网页的层次深度
-delay delay 表明访问不同主机的延时,单位为“秒”
-threads threads 表明需要启动的线程数
-topN 1000 表明只抓取每一层的前N个URL