Storm集群启动流程分析
程序员
1、客户端运行storm nimbus时,会调用storm的python脚本,该脚本中为每个命令编写了一个方法,每个方法都可以生成一条相应的Java命令。
命令格式:java -server xxx.ClassName -args
nimbus--->Running:/export/servers/jdk/bin/java -server backtype.storm.daemon.nimbus
supervisor--->Running:/export/servers/jdk/bin/java -server backtype.storm.daemon.supervisor
nimbus
2、nimbus启动之后,接受客户端提交任务
命令格式:storm jar xxx.jar xxx.驱动类 参数
Running:/export/servers/jdk/bin/java -client -Dstorm.jar=/export/servers/storm/examples/storm-master/storm-master-topologies-0.9.5.jar org.apache.storm.starter.WordCountTopology wordcount-2017-5-20
该命令会执行storm-starter-topologies-0.9.5.jar中的storm-starter-topologies-0.9.5.jar的main方法,main方法中会执行以下代码:
StormSubmitter.submitTopology("mywordcount",config,topologyBuilder.createTopology());
topologyBuilder.createTopology(),会将程序员编写的spout对象和bolt对象进行序列化。
会将用户的jar上传到nimbus物理节点的/export/data/storm/workdir/nimbus/inbox目录下。并且改名,改名的规则是添加了一个UUID字符串。
在nimbus物理节点的/export/data/storm/workdir/nimbus/stormdist目录下。有当前正在运行的topology的jar包和配置文件,序列化对象文件。
3、接收到任务之后,会将任务进行分配,分配会产生一个assignment对象,该对象会保存到Zookeeper中,目录是/storm/assignments,该目录只保存正在运行的topology任务。
supervisor
4、supervisor通过watch机制,感知到nimbus在zookeeper上的任务分配信息,从zookeeper上拉取任务信息,分辨出属于自己的任务。
5、supervisor根据自己的任务信息,启动自己的worker,并分配一个端口。
worker
6、worker启动之后,连接zookeeper,拉取任务。
得到对象的几种方式?new className创建对象、class.forName反射对象、clone克隆对象、序列化反序列化对象
worker通过反序列化,得到程序自己定义的spout对象和bolt对象。
7、worker根据任务类型,分别执行spout任务或者bolt任务。
spout生命周期是:open、nextTuple、declareOutputFields
bolt生命周期是:prepare、execute(Tuple)、declareOutputFields