实时计算框架之一:Storm之框架搭建

时间:2023-01-09 16:21:04

1 迟来的更新

首先,抱歉这么久没有更新博客了。最近一直失眠中,脑子一直很乱,各种事情又非常多,还请大家体谅。就这么莫名发了一天呆,本来想写点代码,打开电脑,却怎么也提不起任何心去思考;想要躺着睡觉,却头疼的要命。刚好手头上有前几天总结的文章,就顺势粘贴拷贝上来了。

内容主要是实时计算框架Storm相关,为了更好的用户体验,所以开始调研云计算方面的知识,刚好以前没有研究学习过,所以也总结在这里,伴随着一起成长吧!


2 实时计算框架Storm简介

Storm是一个分布式计算框架,主要由Clojure编程语言编写。最初是由Nathan Marz[1]及其团队创建于BackType,[2]该项目在被Twitter取得后开源。[3]它使用用户创建的“管(spouts)”和“螺栓(bolts)”来定义信息源和操作来允许批量、分布式处理流式数据。最初的版本发布于2011年9月17日。

Storm应用被设计成为一个拓扑结构,其接口创建一个转换“流”。它提供与MapReduce作业类似的功能,当遇到异常时该拓扑结构理论上将不确定地运行,直到它被手动终止。

2013年,Apache软件基金会将Storm纳入它的孵化计划。当前最新版本是0.9.3,相关链接:https://storm.apache.org/

 

2.1 基本构成

Storm框架的核心主要由7部分组成。

Topology:一个实时应用的计算任务被打包作为Topology发布,这同Hadoop的MapReduce任务相似。

Spout:Storm中的消息源,用于为Topology生产消息(数据),一般是从外部数据源(如Message Queue、RDBMS、NoSQL、Realtime Log)不间断地读取数据并发送给Topology消息(tuple元组)。

Bolt:Storm中的消息处理者,用于为Topology进行消息的处理,Bolt可以执行过滤,聚合, 查询数据库等操作,而且可以一级一级的进行处理。

Stream:产生的数据(tuple元组)。

Stream grouping:在Bolt任务中定义的Stream进行区分。

Task:每个Spout或者Bolt在集群执行许多任务。

Worker:Topology跨一个或多个Worker节点的进程执行。

 

2.2 相关依赖

2.2.1 集群ZooKeeper

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

Storm使用ZooKeeper来协调集群。

 

2.2.2 消息队列ZeroMQ和JZMQ

ZMQ(以下ZeroMQ简称ZMQ)是一个简单好用的传输层,像框架一样的一个socket library,他使得Socket编程更加简单、简洁和性能更高。是一个消息处理队列库,可在多个线程、内核和主机盒之间弹性伸缩。ZMQ的明确目标是“成为标准网络协议栈的一部分,之后进入Linux内核”。现在还未看到它们的成功。但是,它无疑是极具前景的、并且是人们更加需要的“传统”BSD套接字之上的一层封装。ZMQ让编写高性能网络应用程序极为简单和有趣。

JZMQ是对ZMQ的Java绑定。

 

2.2.3 消息队列Netty

Netty是由JBOSS提供的一个java开源框架。Netty提供异步的、事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务器和客户端程序。

也就是说,Netty 是一个基于NIO的客户,服务器端编程框架,使用Netty 可以确保你快速和简单的开发出一个网络应用,例如实现了某种协议的客户,服务端应用。Netty相当简化和流线化了网络应用的编程开发过程,例如,TCP和UDP的socket服务开发。

Storm使用Netty和ZeroMQ两种消息传递机制,默认是ZeroMQ。

 

2.2.4 项目管理工具Maven

Maven是基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具。

Maven 除了以程序构建能力为特色之外,还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性,所以常常用两三行 Maven 构建脚本就可以构建简单的项目。

使用Maven对要提交到Storm执行的程序进行打包。

 

2.2.5 其他

JDK,需要安装JDK 6以上版本。

Python,一般Linux自带Python。

Eclipse,Storm开发需要使用Eclipse。

 

 

3 实时计算框架Storm搭建

3.1 基本配置

3.1.1 虚拟机环境建立

安装虚拟机VirtualBox4.3.12(请勿安装更高版本,可能对Ubuntu 12.04支持性不佳),VirtualBox是一款开源虚拟机软件,占用资源小并且便于使用。

实时计算框架之一:Storm之框架搭建

安装完成后,建立虚拟机,安装Ubuntu 12.04版本系统。

实时计算框架之一:Storm之框架搭建

选择好系统后,点击下一步。

实时计算框架之一:Storm之框架搭建

根据当前系统内存大小,选择一个合适的内存大小。

实时计算框架之一:Storm之框架搭建

如果是新建安装的系统,需要创建虚拟硬盘,否则可以使用已有的虚拟硬盘文件。

实时计算框架之一:Storm之框架搭建

创建虚拟硬盘时,使用VirtualBox的磁盘映像,点击下一步。

实时计算框架之一:Storm之框架搭建

根据自己的需要选择硬盘分配方式,点击下一步。

实时计算框架之一:Storm之框架搭建

选择创建位置和硬盘大小,一般将硬盘创建较大一点比较好,防止后期硬盘空间不足。最后点击创建结束虚拟机的创建。

创建完成后,点击启动,并选择Ubuntu的系统镜像文件所在位置,完成系统的安装。

完成系统安装后,进入Ubuntu系统,然后点击VirtualBox菜单栏的设备选项,选择安装增强功能。

实时计算框架之一:Storm之框架搭建


3.1.2 安装JDK

下载相关版本JDK,下载地址:

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

下载后进行解压:

tar –zxvf jdk-8u25-linux-x64.tar.gz

将解压后的文件放到/usr/lib/jvm目录里:

sudo mv jdk1.8.0_25 /usr/lib/jvm/

修改环境变量,这里直接修改所有用户配置文件/etc/profile:

sudo gedit /etc/profile

在文件末尾追加以下信息:

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_25

export JRE_HOME=/usr/lib/jvm/jdk1.8.0_25/jre

export PATH=$JAVA_HOME/bin:$PATH

更新profile文件:

source /etc/profile

使用java命令测试安装是否成功:

java -version

如果之前系统安装了OpenJDK,需要将默认JDK更新到当前版本:

sudo update-alternatives --install /usr/bin/java java/usr/lib/jvm/jdk1.8.0_25/bin/java 300

sudo update-alternatives --install /usr/bin/javac javac/usr/lib/jvm/jdk1.8.0_25/bin/javac 300

sudo update-alternatives --config java

sudo update-alternatives --config javac

如果执行过程中提示有其他java相关命令没有更新,则按照上面的方法进行更新即可。

实时计算框架之一:Storm之框架搭建


3.1.3 安装Maven

下载相关版本的Maven,下载地址:

http://maven.apache.org/download.cgi

下载后进行解压:

tar –zxvf apache-maven-3.2.5-bin.tar.gz

将解压后的文件放到/opt/maven目录下:

sudo mv –f apache-maven-3.2.5 /opt/maven

添加Maven到环境变量中:

sudo gedit /etc/profile

export M2_HOME=/opt/maven

export PATH=$M2_HOME/bin:$PATH

更新环境变量:

source /etc/profile

测试maven是否可以正常执行:

mvn –v

实时计算框架之一:Storm之框架搭建


3.1.4 安装Eclipse

可以直接在Ubuntu的软件中心进行Eclipse的安装。

实时计算框架之一:Storm之框架搭建


3.1.5 安装Storm

3.1.5.1 安装ZooKeeper

下载相关版本的ZooKeeper,下载地址:

http://zookeeper.apache.org/releases.html#download

下载后进行解压:

tar –zxvf zookeeper-3.4.6.tar.gz

将解压后的文件放到/opt/zookeeper目录下:

sudo mv –f zookeeper-3.4.6 /opt/zookeeper

添加ZooKeeper到环境变量中:

sudo gedit /etc/profile

export ZK_HOME=/opt/zookeeper

export PATH=$ZK_HOME/bin:$PATH

更新环境变量:

source /etc/profile

启动ZooKeeper:

zkServer.sh start

实时计算框架之一:Storm之框架搭建


3.1.5.2 安装ZeroMQ

下载相关版本的ZeroMQ,下载地址:

http://zeromq.org/intro:get-the-software

下载后进行解压:

tar –zxvf zeromq-4.1.0-rc1.tar.gz

进入目录,并进行编译安装:

cd zeromq-4.1.0-rc1

./configure

make

make install

 

3.1.5.3 安装JZMQ

下载相关版本的JZMQ,下载地址:

https://github.com/zeromq/jzmq

下载后进行解压:

unzip jzmq-master.zip

进入目录,并进行编译安装:

cd jzmq-master

./configure

make

make install

 

3.1.5.4 安装Storm

下载相关版本的Storm,下载地址:

http://storm.apache.org/downloads.html

下载后进行解压:

tar –zxvf apache-storm-0.9.3.tar.gz

将解压后的文件放到/opt/storm目录下:

sudo mv apache-storm-0.9.3 /opt/storm

添加Storm到环境变量中:

sudo gedit /etc/profile

export STORM_HOME=/opt/storm

export PATH=$ STORM_HOME/bin:$PATH

更新环境变量:

source /etc/profile

 

3.2 本地模式

进入Storm安装目录下的conf目录,并修改配置文件:storm.yaml,修改内容如下:

# 配置ZooKeeper集群节点

storm.zookeeper.servers:

    -"localhost"

 

# 配置Nimbus节点

nimbus.host: "localhost"

 

# 配置DRPC节点

drpc.servers:

    -"localhost"

 

3.3 集群模式

进入Storm安装目录下的conf目录,并修改配置文件:storm.yaml,修改内容如下:

# 配置ZooKeeper集群节点

storm.zookeeper.servers:

    - "nodel01"

    - "nodel02"

    - "nodel03"

 

# 配置Nimbus节点

nimbus.host: " nodel04"

 

# 配置DRPC节点

drpc.servers:

    - " nodel04"

 

3.4 启动Storm

首先,启动集群ZooKeeper:

zkServer.sh start

对于Nimbus节点,启动方式如下:

storm nimbus &

storm ui &

对于Supervisor节点,启动方式如下:

storm supervisor &

启动drpc守护进程:

storm drpc &

启动logviewer守护进程:

storm logviewer &

使用jps命令查看启动的进程信息:

jps

实时计算框架之一:Storm之框架搭建

实时计算框架之一:Storm之框架搭建


4 进一步思考

自Google的Hadoop成功以来,陆陆续续,各式各样的并行处理框架不断出现,云服务的概念也逐步改变了人们的思考方式和做事方法,能有机会去搭建这样一个平台,还是非常高兴的,也愿自己能借着这个机会再次大幅度提升一下水平。

有些事情想要处理,却总是加上一个期限,这个无疑最让人烦躁的吧。就像网购一样,一旦买了一样很重要的东西,就会每时每刻去关注它的动态,怎么还不发货?怎么快递这么慢?今天几点送到?

亟待调整心态,有什么好方法的朋友请推荐几个~~~多谢~~~