spark-train:Spark使用过程中的一些操作实践

时间:2024-05-31 14:36:17
【文件属性】:

文件名称:spark-train:Spark使用过程中的一些操作实践

文件大小:1.33MB

文件格式:ZIP

更新时间:2024-05-31 14:36:17

spark Scala

spark-train 目录结构说明 Accumulator 计数器的使用 Broadcast 使用Spark实现Common Join和Map Join MultipleOutput & Job run more 多目录输出(即partition by操作)和作业重跑机制的实现 MergeSmallFile 小文件的合并 ScalaOpHDFS Scala操作HDFS文件系统,修改Spark输出到HDFS上的文件的名字 Spark SQL Debug Spark SQL Debug操作指南 data 测试数据 注意: 所有的实现都是基于Spark Core实现的,基于Spark SQL的实现,部分章节将会在后续进行更新


【文件预览】:
spark-train-master
----06-Spark SQL Debug()
--------Spark SQL Debug.pdf(1.38MB)
----data()
--------emp3.txt(36KB)
--------emp2.txt(701B)
--------emp1.txt(656B)
----04-MergeSmallFile()
--------SmallFile()
--------README.md(505B)
----02-Broadcast()
--------Broadcast Code()
--------README.md(124B)
----05-ScalaOpHDFS()
--------ScalaOpHDFS()
--------README.md(587B)
----README.md(614B)
----01-Accumulator()
--------Accumulator Code()
--------README.md(1KB)
----03-MultipleOutput & Job run more()
--------01-MultipleOutput()
--------02-Job run more()
--------README.md(1KB)

网友评论