文件名称:java8集合源码-spark-tutorial:星火教程
文件大小:8.95MB
文件格式:ZIP
更新时间:2024-06-24 11:24:01
系统开源
java8集合源码第1章:介绍
火花RDD
Spark
SQL
和数据帧
星火机器学习
Spark
Streaming
+
Apache
Kafka
(Java8)
Hadoop
-
限制
Map
&
Reduce
不适用于所有情况
一个的输出作为另一个的输入
火花
还使用
M&R
磁盘速度提高
10
倍
内存快
100
倍
构建执行计划
DAG(有向无环图)
巧妙的优化,例如:非依赖任务的并行运行
多线程的好处
驱动程序(将函数发送到)+
worker1
+
worker2
+
......
任务:针对分区的功能
RDD
弹性分布式数据集
Resilient
=
on
failure
,
数据由
lineage
重建
RDD
不首先存在
-
相反
-
作为执行计划
RDD
不可变
Map
reduce
Pairs
Tuples
Flatmaps
Sorting
CHAPTER-2
:
eclipse的设置和本地启动应用程序
蚀
确保Java8
Maven
项目
-
pom.xml
Maven
构建
-
目标
-
eclipse:eclipse
【文件预览】:
spark-tutorial-master
----pom.xml(2KB)
----data.txt(23KB)
----src()
--------main()
----.gitignore(68B)
----README.md(16KB)
----sample_outputs()
--------Joins_Output(2KB)