文件名称:2018最新BAT大数据面试题.docx
文件大小:55KB
文件格式:DOCX
更新时间:2021-10-10 09:14:42
BAT 面试题 大数据
大数据这么火,但是从业人员也多啊,需要好好琢磨一下,充分准备。把这份题目分享出来,给面试的程序员参考用。就设为最低分值吧,大家拿去。 题目示例如下: 15、MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什么? 1)一个 MapReduce 作业由 Map 阶段和 Reduce 阶段两部分组成,这两阶段会对数据排序,从这个意义上说,MapReduce 框架本质就是一个 Distributed Sort。 2)在 Map 阶段,Map Task 会在本地磁盘输出一个按照 key 排序(采用的是快速排序)的文件(中间可能产生多个文件,但最终会合并成一个),在 Reduce 阶段,每个 Reduce Task 会对收到的数据排序,这样,数据便按照 Key 分成了若干组,之后以组为单位交给 reduce()处理。 3)很多人的误解在 Map 阶段,如果不使用 Combiner便不会排序,这是错误的,不管你用不用 Combiner,Map Task 均会对产生的数据排序(如果没有 Reduce Task,则不会排序,实际上 Map 阶段的排序就是为了减轻 Reduce端排序负载)。 4)由于这些排序是 MapReduce 自动完成的,用户无法控制,因此,在hadoop 1.x 中无法避免,也不可以关闭,但 hadoop2.x 是可以关闭的。