Storm有7种内置的分组方式,也可以通过实现CustomStreamGrouping接口来定义自己的分组。
(1)Shuffle分组:Task中的数据随机分配,可以保证同一级Bolt上的每个Task处理的Tuple数量一致。
(2)Fields分组: 根据Tuple中的某一个Filed或者多个Filed的值来划分。比如Stream根据user-id的值来分组,具有相同的user-id值的Tuple会被分发到相同的Task中。
(3)All分组: 所有的Tuple都会分发到所有的Task上。
(4)Global分组: 整个Stream会选择一个Task作为分发的目的地,通常是具有最新ID的Task。
(5)None分组: 也就是你不关心如何在Task中做Stream的分发,目前等同于Shuffle分组。
(6)Direct分组: 这是一种特殊的分组方式,也就是产生数据的Spout/Bolt自己明确决定这个Tuple被Bolt的哪些Task所消费。如果Direct分组,需要使用OutputCollector的emitDirect方法来实现。
(7)Local or shuffle分组:如果目标Bolt中的一个或者多个Task和当前产生数据的Task在同一个Worker进程中,那么就走内部的线程间通信,将Tuple直接发给在当前Worker进程中的目的Task。否则,同Shuffle分组。