前面,讲到了hadoop的序列化机制,mr程序开发,自定义排序,自定义分组。
有多少个reduce的并发任务数可以控制,但有多少个map的并发任务数还没
缓存,分组,排序,转发,这些都是mr的shuffle。
Soga
现在。来观察map阶段有几个yarnchild,reduce阶段有几个yarnchild。对应地,就是有多少个map的并发任务数,有多少个reduce的并发任务数
以上我,查看有多少个map并发任务数
查看map并发任务数之后,进程被回收。
查看reduce并发任务数
Reduce的Task进程被回收
总的来说,
生成个Runjar -> 生成个MRAppMaster(运行map任务) -> 查看map并发任务数 ->
Map的Task进程被回收 ->查看reduce并发任务数 -> Reduce的Task进程被回收 –>
以上是/flow/data
其实啊,前面,讲到了hadoop的序列化机制,mr程序开发,自定义排序,自定义分组。
有多少个reduce的并发任务数可以控制,但有多少个map的并发任务数还没(是在分片中控制的)。
下面,来将在/flow/data中,分片控制map的并发任务数
Soga,原来是如此
缓存,分组,排序,转发,这些都是mr的shuffle。
Soga
以上是weekend110的shufle机制,部分在前面都讲了。
下面是weekend110的mr程序的组件全貌
往数据库、HBase、ftp、hdfs(默认是往hdfs写),文件,,,用户不用管,特推出mr程序的组件------OutputFormat
比如,对于图片,视频,,,这些,InputFormat,就不能了。
可以看到,DBInputFormat是去数据库里读,
可以看到,DBOutputFormat是往数据库里写,
这里,只是想看下InputFormat和OutputFormat
恢复