文件名称:nutch入门教程
文件大小:917KB
文件格式:RAR
更新时间:2016-10-13 14:50:11
nutch lucene 全文搜索 爬虫
1.1 什么是 nutch Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜 引擎所需的全部工具。 1.2 研究 nutch的原因 可能有的朋友会有疑问,我们有 google,有百度,为何还需要建立自己的搜索 擎呢?这里我列出 3 点原因: (1) 透明度:nutch 是开放源代码的,因此任何人都可以查看他的排序算法 是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为 什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允 许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。因 此 nutch 对学术搜索和*类站点的搜索来说,是个好选择,因为一 个公平的排序结果是非常重要的。
【文件预览】:
jb51.net
----脚本之家.url(124B)
----Nutch入门教程.pdf(1.15MB)
----服务器软件.url(112B)
----jb51.net.txt(5KB)