Storm的Stream分组方式

时间:2022-01-17 15:24:10

Storm7种内置的分组方式,也可以通过实现CustomStreamGrouping接口来定义自己的分组。

(1)Shuffle分组:Task中的数据随机分配,可以保证同一级Bolt上的每个Task处理的Tuple数量一致。

(2)Fields分组:  根据Tuple中的某一个Filed或者多个Filed的值来划分。比如Stream根据user-id的值来分组,具有相同的user-id值的Tuple会被分发到相同的Task中。

(3)All分组:        所有的Tuple都会分发到所有的Task上。

(4)Global分组:  整个Stream会选择一个Task作为分发的目的地,通常是具有最新ID的Task。

(5)None分组:    也就是你不关心如何在Task中做Stream的分发,目前等同于Shuffle分组。

(6)Direct分组:   这是一种特殊的分组方式,也就是产生数据的Spout/Bolt自己明确决定这个Tuple被Bolt的哪些Task所消费。如果Direct分组,需要使用OutputCollector的emitDirect方法来实现。

(7)Local or shuffle分组:如果目标Bolt中的一个或者多个Task和当前产生数据的Task在同一个Worker进程中,那么就走内部的线程间通信,将Tuple直接发给在当前Worker进程中的目的Task。否则,同Shuffle分组。

Storm的Stream分组方式              Storm的Stream分组方式

Storm的Stream分组方式              Storm的Stream分组方式