MR_BBSCrawler:BBSCrawler map缩小版本下载

【文件属性】：

文件名称：MR_BBSCrawler:BBSCrawler map缩小版本

文件大小：2.2MB

文件格式：ZIP

更新时间：2024-06-01 04:36:57

Java

前面我们实现了的单机版本，现在我们将其改造成mapreduce版本前言之前的文章我们爬取小百合所有板块的1000个帖子，然而数据量实在太大,小百合又有不能连续获取的限制，要全部爬完花费的时间过长(45810000.5)。因此我们决定爬取top20的板块，而每个板块的帖子上升到5000。为了利用Hadoop分布式的优势（完成实验任务),下面我们将其改造成Mapreduce版本。没有安装Hadoop环境的可以参考分析过程及代码输入文件准备共有20个热门板块，那么创建20个文本文件，每个文本文件中放一个板块的url。爬取过程爬取过程如下: Map过程: MapReduce程序读取输入文件中的url,作为一个map任务进行帖子爬取,将爬取到的每一条帖子输出 Reduce过程：将得到的帖子原样输出不足这里map过程应该拿到一个帖子就输出的，而我是拿到该板块所有帖子再输出。==不

立即下载

【文件预览】：
MR_BBSCrawler-master
----bin()
--------MR_Crawler$CrawlerReducer.class(2KB)
--------com()
--------MR_Crawler$CrawlerMapper.class(2KB)
--------MR_Crawler.class(2KB)
----屏幕快照 2015-08-26 上午10.36.57.png(157KB)
----outputs()
--------输出文件示例.txt(2.75MB)
----src()
--------com()
--------MR_Crawler.java(3KB)
----.project(424B)
----.classpath(21KB)
----lib()
--------htmlparser.jar(136KB)
--------commons-httpclient-3.1.jar(298KB)
--------commons-logging-1.1.1.jar(59KB)
--------commons-codec-1.6.jar(227KB)
--------htmllexer.jar(70KB)
----屏幕快照 2015-09-01 下午7.30.41.png(188KB)
----README.md(1KB)
----urls.txt(910B)
----urls()
--------urls副本 11.txt(43B)
--------urls副本.txt(45B)
--------urls副本 14.txt(42B)
--------urls副本 18.txt(44B)
--------urls副本 6.txt(47B)
--------urls副本 9.txt(47B)
--------urls副本 19.txt(48B)
--------urls副本 10.txt(47B)
--------urls副本 15.txt(43B)
--------urls副本 5.txt(48B)
--------urls副本 4.txt(50B)
--------urls副本2.txt(47B)
--------urls副本 13.txt(41B)
--------urls副本 7.txt(42B)
--------urls副本 8.txt(47B)
--------urls副本 17.txt(46B)
--------urls副本 20.txt(47B)
--------urls.txt(45B)
--------urls副本 12.txt(47B)
--------urls副本 3.txt(42B)
--------urls副本 16.txt(48B)

秒客网

MR_BBSCrawler:BBSCrawler map缩小版本

网友评论

相关文章