3 weekend110的shuffle机制 + mr程序的组件全貌

时间:2024-01-13 22:26:02

前面,讲到了hadoop的序列化机制,mr程序开发,自定义排序,自定义分组。

有多少个reduce的并发任务数可以控制,但有多少个map的并发任务数还没

缓存,分组,排序,转发,这些都是mr的shuffle。

Soga

现在。来观察map阶段有几个yarnchild,reduce阶段有几个yarnchild。对应地,就是有多少个map的并发任务数,有多少个reduce的并发任务数

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

以上我,查看有多少个map并发任务数

3  weekend110的shuffle机制  + mr程序的组件全貌

查看map并发任务数之后,进程被回收。

3  weekend110的shuffle机制  + mr程序的组件全貌

查看reduce并发任务数

3  weekend110的shuffle机制  + mr程序的组件全貌

Reduce的Task进程被回收

总的来说,

生成个Runjar  ->  生成个MRAppMaster(运行map任务) -> 查看map并发任务数 ->

Map的Task进程被回收  ->查看reduce并发任务数 -> Reduce的Task进程被回收 –> 

3  weekend110的shuffle机制  + mr程序的组件全貌

以上是/flow/data

其实啊,前面,讲到了hadoop的序列化机制,mr程序开发,自定义排序,自定义分组。

有多少个reduce的并发任务数可以控制,但有多少个map的并发任务数还没(是在分片中控制的)。

下面,来将在/flow/data中,分片控制map的并发任务数

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

Soga,原来是如此

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

缓存,分组,排序,转发,这些都是mr的shuffle。

Soga

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

以上是weekend110的shufle机制,部分在前面都讲了。

下面是weekend110的mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

往数据库、HBase、ftp、hdfs(默认是往hdfs写),文件,,,用户不用管,特推出mr程序的组件------OutputFormat

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

比如,对于图片,视频,,,这些,InputFormat,就不能了。

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

可以看到,DBInputFormat是去数据库里读,

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

可以看到,DBOutputFormat是往数据库里写,

这里,只是想看下InputFormat和OutputFormat

3  weekend110的shuffle机制  + mr程序的组件全貌

恢复