java8stream源码-SparkProject:Spark学习,关于SparkSQL和SparkStreaming的学习

时间:2021-06-04 17:47:34
【文件属性】:
文件名称:java8stream源码-SparkProject:Spark学习,关于SparkSQL和SparkStreaming的学习
文件大小:16.52MB
文件格式:ZIP
更新时间:2021-06-04 17:47:34
系统开源 java8 stream 源码 目录: Spark项目 本项目分为Java版本和Scala版本。在学习的时候使用Scala,因为企业生产中都是使用Java来编写的,因此之后用Java进行重构。 本项目中Spark SQL和Spark Streaming目录下都会有一个Actual-Project和一个learning-project,前者是本阶段学习整体完成后,进行的实战项目,后者是阶段性学习时,日常的测试。 项目中所有用到的数据都在data目录下,可自行下载,注意在执行程序时,记得修改路径 其实这些数据,都在spark目录下spark-2.4.4-bin-2.6.0-cdh5.15.1/examples/src/main/resources Spark及生态圈概述 一、产生的背景 MapReduce局限性:代码非常繁琐,只能支持map和reduce方法,执行效率低下。map处理完后的数据回写到磁盘上,reduce再从磁盘上把数据拉取过来,因此执行效率低下。map和reduce都会对应一个jvm,因此作业量大,则线程开销非常庞大。不适合迭代多次,交互感很低,不支持流式处理。 在hado

网友评论