文件名称:qiwur-nutch:基于Apache Nutch的Web爬网程序,具有众包支持和Ajax支持
文件大小:2.97MB
文件格式:ZIP
更新时间:2024-06-09 05:38:15
Java
Qiwur Nutch基于Apache Nutch 2.3.0,具有出色的功能: 众包抓取支持 Ajax支持 人形机器人 更好的系统计数器 更好的网络用户界面 该项目与其他两个相关项目一起工作:卫星: : qiwur-nutch-ui: : Project Satellite是基于phantomjs的访存客户端,它像真正的人类一样访问目标网站。 qiwur-nutch-ui项目是一个基于PHP的WEB UI,可以轻松实现。 要使用众包模式运行搜寻器: 确保您熟悉Apache Nutch 修改nutch-site.xml,将“ fetcher.fetch.mode”设置为“ crowdsourcing”,将“ nutch.master.domain”设置为运行nutch服务器的机器 在任何机器上启动卫星都遵循卫星的自述文件。 卫星旨在在任何便宜的PC上运行,就像您使用c