Nutch公开课从搜索引擎到网络爬虫

时间:2016-10-13 20:54:19
【文件属性】:

文件名称:Nutch公开课从搜索引擎到网络爬虫

文件大小:2.92MB

文件格式:PDF

更新时间:2016-10-13 20:54:19

nutch 网络爬虫 搜索引擎 hadoop solr

课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现。


网友评论

  • 不错的资料,入门了解不错。
  • 还行 是PPT资料