文件名称:MR_BBSCrawler:BBSCrawler map缩小版本
文件大小:2.2MB
文件格式:ZIP
更新时间:2024-06-01 04:36:57
Java
前面我们实现了的单机版本,现在我们将其改造成mapreduce版本 前言 之前的文章我们爬取小百合所有板块的1000个帖子,然而数据量实在太大,小百合又有不能连续获取的限制,要全部爬完花费的时间过长(45810000.5)。因此 我们决定爬取top20的板块,而每个板块的帖子上升到5000。为了利用Hadoop分布式的优势(完成实验任务),下面我们将其改造成Mapreduce版本。 没有安装Hadoop环境的可以参考 分析过程及代码 输入文件准备 共有20个热门板块,那么创建20个文本文件,每个文本文件中放一个板块的url。 爬取过程 爬取过程如下: Map过程: MapReduce程序读取输入文件中的url,作为一个map任务进行帖子爬取,将爬取到的每一条帖子输出 Reduce过程:将得到的帖子原样输出 不足 这里map过程应该拿到一个帖子就输出的,而我是拿到该板块所有帖子再输出。==不
【文件预览】:
MR_BBSCrawler-master
----bin()
--------MR_Crawler$CrawlerReducer.class(2KB)
--------com()
--------MR_Crawler$CrawlerMapper.class(2KB)
--------MR_Crawler.class(2KB)
----屏幕快照 2015-08-26 上午10.36.57.png(157KB)
----outputs()
--------输出文件示例.txt(2.75MB)
----src()
--------com()
--------MR_Crawler.java(3KB)
----.project(424B)
----.classpath(21KB)
----lib()
--------htmlparser.jar(136KB)
--------commons-httpclient-3.1.jar(298KB)
--------commons-logging-1.1.1.jar(59KB)
--------commons-codec-1.6.jar(227KB)
--------htmllexer.jar(70KB)
----屏幕快照 2015-09-01 下午7.30.41.png(188KB)
----README.md(1KB)
----urls.txt(910B)
----urls()
--------urls副本 11.txt(43B)
--------urls副本.txt(45B)
--------urls副本 14.txt(42B)
--------urls副本 18.txt(44B)
--------urls副本 6.txt(47B)
--------urls副本 9.txt(47B)
--------urls副本 19.txt(48B)
--------urls副本 10.txt(47B)
--------urls副本 15.txt(43B)
--------urls副本 5.txt(48B)
--------urls副本 4.txt(50B)
--------urls副本2.txt(47B)
--------urls副本 13.txt(41B)
--------urls副本 7.txt(42B)
--------urls副本 8.txt(47B)
--------urls副本 17.txt(46B)
--------urls副本 20.txt(47B)
--------urls.txt(45B)
--------urls副本 12.txt(47B)
--------urls副本 3.txt(42B)
--------urls副本 16.txt(48B)