一、Spark概述
spark官网:spark.apache.org
Spark是用的大规模数据处理的统一计算引擎,它是为大数据处理而设计的快速通用的计算引擎。spark诞生于加油大学伯克利分校AMP实验室。
mapreduce(MR)与spark的对比:
1.MR在计算中产生的结果存储在磁盘上,spark存储在内存中;
2.磁盘运行spark的速度是MR的10倍,内存运行spark是MR的100多倍;
3.spark并不是为了替代Hadoop,而是为了补充Hadoop;
4.spark没有存储,但他可以继承HDFS。
Spark启用的是内存分布式数据集,而Scala语言可以轻松的处理分布式数据集,Scala语言可以说是为Spark而生的,而Spark 的出现推动了Scala语言的发展。
二、Spark特点
1.速度快
磁盘运行spark的速度是MR的10倍,内存运行spark是MR的100多倍;
Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,实现批处理和流处理的高性能。
注释:DAG:有向无环图,上一个RDD的计算结果作为下一个RDD计算的初始值,可以迭代成千上万次。
查询优化器:指的是spark sql
批处理:spark sql
流处理:spark streaming
2.便于使用
支持Java/Scala/python/R/SQL编写应用程序
3.通用性高
不仅支持批处理、流处理,
还支持机器学习(MLlib:machine learning library)和图形计算(GraphX)
4.兼容性高
Spark运行在Hadoop,Apache Mesos。Kubernetes,独立或云端。它可以访问各种数据源。
Spark实现了Standalone模式作为内置的资源管理和调度框架。
三、Spark的安装部署
1.准备工作:
新建三台虚拟机(建议2G内存,1G也可以)/使用远程连接工具连接 / 关闭防火墙 / 修改主机名
/ 修改映射文件 / 设置免密登陆 / 安装jdk(1.8以上版本)
2.在官网下载spark 安装包(我是2.2.0版本)
然后上传到Linux系统,解压,删包,重命名
3.修改spark部分配置文件
进入spark->conf
1)重命名spark-env.sh.template 为 spark-env.sh,进入该文件
添加配置信息:
export JAVA_HOME=/root/sk/jdk1.8.0_132 //jdk安装路径
export SPARK_MASTER_HOST=spark-01 //spark主节点机器名
export SPARK_MASTER_PORT=7077 //spark主机点端口号
2)重命名slaves.template(好像是这个)为slaves,进入该文件
删除最后一行“localhost”
添加:spark-02
spark-03 //其他两台从节点worker,便于一键启动
4.发送修改好的spark解压文件夹到其他两台机器
scp -r sprk sprk-02:$PWD
5.启动spark,访问web页面
在spark 的sbin目录下输入命令:
./start-all.sh
然后通过ip:端口号访问UI界面,如:
192.168.50.186:8080
四、Spark的UI界面详解
URL:统一资源定位符,spark-master的访问地址
REST URL:可以通过rest的方式访问集群
Alive Workers:存活的worker数量
cores in use:可以使用的核心数量
Memory in use:可以使用的内存大小
Applications:正在运行和已经完成的应用程序
Driver:通过driver提交的任务情况
Status:节点的状态
Spark-Unit1-spark概述与安装部署的更多相关文章
-
Spark、Shark集群安装部署及遇到的问题解决
1.部署环境 OS:Red Hat Enterprise Linux Server release 6.4 (Santiago) Hadoop:Hadoop 2.4.1 Hive:0.11.0 JDK ...
-
HBase的概述和安装部署
一.HBase概述 1.HBase是Hadoop数据库,是一个分布式.可扩展的大数据存储. HBase是用于对大数据进行随机.实时读写访问的非关系型数据库,它的目标托管非常大的表——数十亿行N百万列. ...
-
Kafka概述及安装部署
一.Kafka概述 1.Kafka是一个分布式流媒体平台,它有三个关键功能: (1)发布和订阅记录流,类似于消息队列或企业消息传递系统: (2)以容错的持久方式存储记录流: (3)记录发送时处理流. ...
-
Zookeeper的概述、安装部署及选举机制
一.Zookeeper概述 1.Zookeeper是Hadoop生态的管理者,它致力于开发和维护开源服务器,实现高度可靠的分布式协调. 2.Zookeeper的两大功能: (1)存储数据 (2)监听 ...
-
Flume的概述和安装部署
一.Flume概述 Flume是一种分布式.可靠且可用的服务,用于有效的收集.聚合和移动大量日志文件数据.Flume具有基于流数据流的简单灵活的框架,具有可靠的可靠性机制和许多故障转移和恢复机制,具有 ...
-
Spark安装部署(local和standalone模式)
Spark运行的4中模式: Local Standalone Yarn Mesos 一.安装spark前期准备 1.安装java $ sudo tar -zxvf jdk-7u67-linux-x64 ...
-
【Hadoop离线基础总结】oozie的安装部署与使用
目录 简单介绍 概述 架构 安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...
-
【Spark学习】Spark 1.1.0 with CDH5.2 安装部署
[时间]2014年11月18日 [平台]Centos 6.5 [工具]scp [软件]jdk-7u67-linux-x64.rpm spark-worker-1.1.0+cdh5.2.0+56-1.c ...
-
使用docker安装部署Spark集群来训练CNN(含Python实例)
使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...
随机推荐
-
Android 手机卫士--导航界面4的业务逻辑
本文实现导航界面4的业务逻辑,导航界面4的界面如下: 本文地址:http://www.cnblogs.com/wuyudong/p/5952640.html,转载请注明出处. 相应的代码如下: pri ...
-
selected 刷新页面后selected选中的值保持不表(thinkphp 从控制器assign 传值到js)
昨晚解决select 刷新页面以后选择的值保持不变,要想让seleted不变,有两种思路, 1,在提交表单的时候,将所选择的option的属性设为checked . 2.将option的value或者 ...
-
服务器跟VPS有什么区别
你好. 服务器是独立的真实存在的硬件设备.其实也就是一台高端电脑.他是放在机房运行的.主要为网站以及一些软件应用提供运行平台.而VPS是虚拟服务器.他是利用软件在服务器上虚拟出来的.也就是分配出一部分 ...
-
Unity3D ShaderLab 自定义光照模型
接着上一篇BasicMyDiffuse的代码来说,这次要说明的就是自定义的光照模型,Ctrl+D>BasicMyDiffuse. 1.>//#pragma surface surf Lam ...
-
apache整合tomcat部署集群
近日,由于公司项目需要,所以学习了apache整合tomcat以及集群的一些知识. 所以做下笔记日后回顾可以用到. apache只有处理静态事物的能力, 而tomcat的强项就是处理动态的请求,所以a ...
-
非常可乐(bfs)
非常可乐 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submi ...
-
iOS开发 - 啰嗦讲解 Runloop
写在前面的 为什么要了解 RunLoop?如果你想成为一个高级iOS开发工程师,那这是你必须了解的东西,他能帮助你更好的理解底层实现的原理,可以利用它的特性做出一些高效又神奇的功能.RunLoop这个 ...
-
为什么MIP-Cache存在
在去年十月的一篇 博客文章 提到 MIP 加速器是由 MIP-HTML, MIP-JS 和 MIP-Cache 三个模块共同产生加速效果的.MIP-HTML 和 MIP-JS 都是开源的,在 GitH ...
-
2018年商业版idea破解安装介绍
1. IntelliJ IDEA 2018商业版-安装 首先去官网http://www.jetbrains.com/idea/download/#section=windows下载Ultimate版( ...
-
Doxygen的使用,配置及实例
Doxygen是一种开源跨平台的,以类似JavaDoc风格描述的文档系统,可以从一套归档源文件开始,生成文档 下载Doxygen + Graphviz Doxygen可以生成动态文档 Graphviz ...