Storm流分组介绍
流分组是拓扑定义的一部分,每个Bolt指定应该接收哪个流作为输入。流分组定义了流/元组如何在Bolt的任务之间进行分发。在设计拓扑的时候需要定义数据如何在组件之间进行交换(流如何被Bolt消耗处理)。
一个流分组指定每个Bolt消耗哪个流。一个节点可以发出多个数据流,流分组允许我们有选择的接收流进行消耗处理。
Storm内置了7种流分组方式和一个自定义分组方式(由InputDeclarer接口定义)。InputDeclarer接口定义了不同的流分组方式。每当TopologyBuilder的setBolt方法被调用时就返回该对象,用于声明一个Bolt的输入流,以及这些流应
该如何分组。InputDeclarer接口的完整定义代码如下:
public interface InputDeclarer<T extends InputDeclarer> {
//字段分组
public T fieldsGrouping(String componentId, Fields fields);
public T fieldsGrouping(String componentId, String streamId, Fields fields);
//全局分组
public T globalGrouping(String componentId);
public T globalGrouping(String componentId, String streamId);
//随机分组
public T shuffleGrouping(String componentId);
public T shuffleGrouping(String componentId, String streamId);
//本地或随机分组
public T localOrShuffleGrouping(String componentId);
public T localOrShuffleGrouping(String componentId, String streamId);
//无分组
public T noneGrouping(String componentId);
public T noneGrouping(String componentId, String streamId);
//广播分组
public T allGrouping(String componentId);
public T allGrouping(String componentId, String streamId);
//直接分组
public T directGrouping(String componentId);
public T directGrouping(String componentId, String streamId);
//自定义分组,通过实现CustomStreamGrouping接口可以实现自定义的流分组
public T customGrouping(String componentId, CustomStreamGrouping grouping);
public T customGrouping(String componentId, String streamId, CustomStreamGrouping grouping);
public T grouping(GlobalStreamId id, Grouping grouping);
}
从InputDeclarer接口中可以看出,流分组的方式主要有fieldsGrouping(字段分组)、globalGrouping(全局分组)、shuffleGrouping(随机分组)、localOrShuffleGrouping(本地或随机分组)、noneGrouping(无分组)、
allGrouping(广播分组)、directGrouping(直接分组)、customGrouping(自定义分组)这8种不同的流分组方式。每个InputDeclarer实例可以有不止一个源,每个源可以使用不同的流分组方式来分组。
1、随机分组
随机分组(Shuffle Grouping)是最常用的流分组方式,它随机分发元组到Bolt上的任务,这样能保证每个任务得到相同数量的元组。随机分组执行原子操作,这是很重要的,例如数学运算。
2、字段分组
字段分组(Fields Grouping)是根据指定字段对流进行分组。例如在日志处理时通常会把Error、Warn等字段进行分组,具有相同Error、Warn的元组总是被分发到相同的任务;不同于前者的字段可能会被分发到不同的任务。
字段分组是实现流连接、关联以及大量其他的用例的基础。在实现上字段分组使用取模散列来实现。
3、广播分组
广播分组(All Grouping)失智流分组发送到所有的Bolt的任务中。
4、全局分组
全局分组(Global Grouping)是指全部流都发送到Bolt的同一个任务中,具体一点是发送给ID最小的任务。
5、无分组
无分组(None Grouping)的应用场景是不关心流如何分组时则可以使用这种分组方式。目前这种分组和随机分组是一样的效果,有一点不同的是Storm会把这个Bolt放到Bolt订阅者的同一个线程中执行。
6、直接分组
直接分组(Direct Grouping)是一种特殊的分组。这种方式的流分组一维这由元组的生产者决定元组的消费者的接收元组的任务。直接分组只能在已经声明为直接流(Direct Stream)的流中使用,并且元组必须使用
emitDirect方法来发射。Bolt通过TopologyContext对象或者OutputCollector类的emit方法的返回值可以获取到其消费者的任务ID列表(List<Integer>)。
7、本地或随机分组
如果目标Bolt在同一工作进程存在一个或多个任务,元组会随机分配给这些任务。否则该分组方式与随机分组方式是一样的效果。
8、自定义分组
自定义分组(Custome Grouping),通过实现CustomStreamGrouping接口可以实现自定义的流分组,接口定义如下:
public interface CustomStreamGrouping extends Serializable {
void prepare(WorkerTopologyContext context, GlobalStreamId stream, List<Integer> targetTasks);
List<Integer> chooseTasks(int taskId, List<Object> values);
}