Spark实战.docx

时间:2021-06-21 03:12:40
【文件属性】:
文件名称:Spark实战.docx
文件大小:497KB
文件格式:DOCX
更新时间:2021-06-21 03:12:40
大数据 spark 1. Spark是特性  高可伸缩性  高容错  于内存计算 2. Spark的生态体系(BDAS,中文:伯利克分析栈)  MapReduce属于Hadoop生态体系之一,Spark则属于BDAS生态体系之一  Hadoop包含了MapReduce、HDFS、HBase、Hive、Zookeeper、Pig、Sqoop等  BDAS包含了Spark、Shark(相当于Hive)、BlinkDB、Spark Streaming(消息实时处理框架,类似Storm)等等 3. Spark与MapReduce 优势:  MapReduce通常将中间结果放到HDFS上,Spark是基于内存并行大数据框架,中间结果存放到内存,对于迭代数据Spark效率高。  MapReduce总是消耗大量时间排序,而有些场景不需要排序,Spark可以避免不必要的排序所带来的开销  Spark是一张有向无环图(从一个点出发最终无法回到该点的一个拓扑),并对其进行优化。 4. Spark支持的API Scala、Python、Java等 5. 运行模式  Local (用于测试、开发)  Standlone (独立集群模式)  Spark on Yarn (Spark在Yarn上)  Spark on Mesos (Spark在Mesos)

网友评论

  • 下载被坑了
  • 就是400多K的自己写的垃圾doc文档
  • 这个基于的spark版本比较老吧。。