【文件属性】:
文件名称:Spark实战.docx
文件大小:497KB
文件格式:DOCX
更新时间:2021-06-21 03:12:40
大数据 spark
1. Spark是特性
高可伸缩性
高容错
于内存计算
2. Spark的生态体系(BDAS,中文:伯利克分析栈)
MapReduce属于Hadoop生态体系之一,Spark则属于BDAS生态体系之一
Hadoop包含了MapReduce、HDFS、HBase、Hive、Zookeeper、Pig、Sqoop等
BDAS包含了Spark、Shark(相当于Hive)、BlinkDB、Spark Streaming(消息实时处理框架,类似Storm)等等
3. Spark与MapReduce
优势:
MapReduce通常将中间结果放到HDFS上,Spark是基于内存并行大数据框架,中间结果存放到内存,对于迭代数据Spark效率高。
MapReduce总是消耗大量时间排序,而有些场景不需要排序,Spark可以避免不必要的排序所带来的开销
Spark是一张有向无环图(从一个点出发最终无法回到该点的一个拓扑),并对其进行优化。
4. Spark支持的API
Scala、Python、Java等
5. 运行模式
Local (用于测试、开发)
Standlone (独立集群模式)
Spark on Yarn (Spark在Yarn上)
Spark on Mesos (Spark在Mesos)
网友评论
- 下载被坑了
- 就是400多K的自己写的垃圾doc文档
- 这个基于的spark版本比较老吧。。