相信大家在执行Hive语句时要进行排序时总会第一想到order by,我也是!
但每次只要是涉及到order by 都发现MapReduce了好久
今天我尝试了用sort by 代替了order by惊讶地发现MapReduce时间远远比使用order by的时间更短!
以下是具体的
执行了select ip,count(ip) from ip_to_country group by ip order by ip;
发现MapReduce过程如下第一张图
执行了select ip,count(ip) from ip_to_country group by ip sort by ip;
发现MapReduce过程如下第二张图
可以通过观察所花时间看出来!
还有因为在这个过程中每个执行语句都涉及到两个MapReduce任务,所以每张图才会有两个mapreduce过程!