spark1.6.1 on yarn搭建部署

注：本文是建立在hadoop已经搭建完成的基础上进行的。

Apache Spark是一个分布式计算框架，旨在简化运行于计算机集群上的并行程序的编写。该框架对资源调度，任务的提交、执行和跟踪，节点间的通信以及数据并行处理的内在底层操作都进行了抽象。它提供了一个更高级别的API用于处理分布式数据。从这方面说，它与Apache Hadoop等分布式处理框架类似。但在底层架构上，Spark与它们有所不同。

Spark起源于加利福利亚大学伯克利分校的一个研究项目。学校当时关注分布式机器学习算法的应用情况。因此，Spark从一开始便为应对迭代式应用的高性能需求而设计。在这类应用中，相同的数据会被多次访问。该设计主要靠利用数据集内存缓存以及启动任务时的低延迟和低系统开销来实现高性能。再加上其容错性、灵活的分布式数据结构和强大的函数式编程接口，Spark在各类基于机器学习和迭代分析的大规模数据处理任务上有广泛的应用，这也表明了其实用性。

Spark支持四种运行模式。

本地单机模式：所有Spark进程都运行在同一个Java虚拟机（Java Vitural Machine，JVM）中。
集群单机模式：使用Spark自己内置的任务调度框架。
基于Mesos：Mesos是一个流行的开源集群计算框架。
基于YARN：即Hadoop 2，它是一个与Hadoop关联的集群计算和资源调度框架。

spark是由Scala语言编写的，但是运行的环境是jvm，所以需要安装JDK
编译过程：Python、java、Scala编写的代码 -> scala编译器编译解释，生成class文件 -> 由jvm负责执行class文件（与java代码执行一致）

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处

由于 spark是由Scala语言编写的，所以依赖Scala环境，且由Scala编写的执行代码也需要环境进行编译。

hdfs是作为spark的持久层，所以需要安装Hadoop，同时如果需要配置spark on yarn，则Hadoop需要安装yarn版本的

spark官方详细参数配置手册：http://spark.apache.org/docs/latest/configuration.html

下载地址：http://spark.apache.org/downloads.html

spark1.6.1 on yarn搭建部署

---------------------------------------------------------------------------------------------------------

1、安装Scala

官网下载地址： http://www.scala-lang.org/download/all.html

下载后解压到指定目录,例如 /usr/local/scala

# tar -zxvf scala-2.11.8.tgz ; mv scala-2.11.8 /usr/local/scala

配置环境变量:

# vim /etc/profile

export SCALA_HOME=/usr/local/scala/

export PATH=$SCALA_HOME/bin:$PATH

2、编辑conf/spark-env.sh文件

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export SPARK_MASTER_IP=dataMaster30

export SPARK_EXECUTOR_INSTANCES=3

export SPARK_EXECUTOR_CORES=3

export SPARK_EXECUTOR_MEMORY=8g

export SPARK_DRIVER_MEMORY=2g

3、编辑slaves文件

#localhost

dataSlave31

dataSlave32

dataSlave33

dataSlave34

dataSlave35

4、启动spark集群：

/usr/local/spark/sbin/start-all.sh

关闭spark集群：

/usr/local/spark/sbin/stop-all.sh

5、检测是否安装成功:

# jps (Master节点) 此时会多出现一个Master进程

1701 Master
1459 SecondaryNameNode
2242 NameNode
1907 ResourceManage

# jps (Worker节点) 此时会多出现一个Worker进程

5387 Worker
4269 DataNode
4398 NodeManager

执行以下测试命令，查看spark单机运行是否成功：

/usr/local/spark/bin/run-example SparkPi 1000

执行以下测试命令，查看spark集群运行是否成功：

cd /usr/local/spark

./bin/spark-submit --master spark://master60:7077 --class org.apache.spark.examples.SparkPi lib/spark-examples-1.6.1-hadoop2.6.0.jar 1000

如果没有报错的话，则证明spark确实部署成功。

6、查看集群状态:

http://master30:/

最后设置开机自启动：

vim /etc/rc.local

su - hadoop -c "/usr/local/hadoop/sbin/start-all.sh"
su - hadoop -c "/usr/local/spark/sbin/start-all.sh"

spark1.6.1 on yarn搭建部署的更多相关文章

Spark1&period;3&period;1 On Yarn的集群搭建
下面给出的是spark集群搭建的环境: 操作系统:最小安装的CentOS 7(下载地址) Yarn对应的hadoop版本号:Hadoop的Cloudera公司发行版Hadoop2.6.0-CDH5.4 ...
Spark集群基于Zookeeper的HA搭建部署笔记（转）
原文链接:Spark集群基于Zookeeper的HA搭建部署笔记 1.环境介绍 (1)操作系统RHEL6.2-64 (2)两个节点:spark1(192.168.232.147),spark2(192 ...
云服务器+tomcat+mysql+web项目搭建部署
云服务器+tomcat+mysql+web项目搭建部署 1.老样子,开头墨迹两句. 作为我的第二篇文章,有很多感慨,第一篇人气好低啊,有点小丧气,不过相信我还是经验少,分享的都是浅显的,所以大家可能不 ...
Ubuntu14&period;04下Ambari安装搭建部署大数据集群（图文分五大步详解）（博主强烈推荐）
不多说,直接上干货! 写在前面的话 (1) 最近一段时间,因担任我团队实验室的大数据环境集群真实物理机器工作,至此,本人秉持负责.认真和细心的态度,先分别在虚拟机上模拟搭建ambari(基于CentO ...
Ubuntu14&period;04下Cloudera安装搭建部署大数据集群（图文分五大步详解）（博主强烈推荐）（在线或离线）
第一步: Cloudera Manager安装之Cloudera Manager安装前准备(Ubuntu14.04)(一) 第二步: Cloudera Manager安装之时间服务器和时间客户端(Ub ...
nginx Win下实现简单的负载均衡（1）nginx搭建部署
快速目录: 一.nginx Win下实现简单的负载均衡(1)nginx搭建部署二.nginx Win下实现简单的负载均衡(2)站点共享Session 三.nginx Win下实现简单的负载均衡(3) ...
zabbix环境搭建部署(一)
Linux高端架构师课程 Linux实战运维国内NO.1全套视频课程 QQ咨询:397824870 > 监控报警 > zabbix环境搭建部署(一) zabbix环境搭建部署(一) 监 ...
企业级监控软件zabbix搭建部署之zabbix server的安装
企业级监控软件zabbix搭建部署之zabbix server的安装 zabbix线上已经应用半年多了,关于zabbix在生产环境中的使用心得,以及一些经验写下来,希望让大家少走弯路,共同学习! 环境 ...
企业级监控软件Zabbix搭建部署之zabbix在WEB页面中的配置
企业级监控软件zabbix搭建部署之zabbix在WEB页面中的配置企业级监控软件zabbix搭建部署之zabbix在WEB页面中的配置关于安装请看 http://www.linuxidc.com ...

随机推荐

poj3107 树形dp
好久没更了.前段时间去ec-final,实力水一波,混了个铜,虽然很弱,但是可以算是对之前一段时间的回报吧. 现在每天忙着复习,逃课太多,啥都不会...不想挂科啊!!Orz... 题意(简化):警察想 ...
ueditor使用总结——前端篇&period;md
首先吐槽下,百度的API太坑,谁让人家都是大牛呢. 说明:本文所涉猎代码均依托于seajs,本文所用ueditor版本为1.4.3.3 JSP UTF-8版编辑器前端部署: 1.把ueditor引入 ...
ifdown eth0 &amp&semi;&amp&semi; idup eth0 ifdown --exclude=l0 -a &amp&semi;&amp&semi; ifup --exclude=lo -a
switch语法中break,default作用说明
转自:http://cjhbest999.iteye.com/blog/1137124 关于java中switch使用的一些说明 switch(表达式) { case 常量表达式1:语句1; .... ...
Others in life
耗电量主要是与电机有关,800W电机在48V下的工作电流大约是800/48=16.7A,因此其工作时间主要取决于电池的容量,如果电池容量是20Ah,那么大概也就连续工作1个小时左右,也就是30-40k ...
爬虫基础之urllib库
urllib库的基本使用 urlopen() # 导入urllib库 import urllib # 往指定url发送请求,返回一个响应对象 response = urllib.request.url ...
checkbox 选中的id拼接长字符串
需求描述:为了做一个批量操作,需要获取到checkbox选中的项的id,并且把选中的id拼接成字符串. 解决思路:先获取到checkbox选中项,然后拼接.(这tm不废话么),问题的关键就是获取che ...
浅谈mysql中各种表空间（tablespaces）的概念
mysql中,会涉及到各种表空间的概念,虽然,很多方面这些概念和Oracle有相似性,但也有很多不同的地方,初学者很容易被这些概念弄的晕头转向,从而,混淆这些概念的区别和理解,下面,就简要介绍和说明一 ...
sql查询：存在A表而不在B表中的数据
A.B两表,找出ID字段中,存在A表,但是不存在B表的数据. 方法一:使用 not inselect distinct A.ID from A where A.ID not in (select ID ...
visual studio 2014 新特性
原文如下: Visual Studio "14" CTP Today, we are making available a first community technology p ...