文件名称:java8看不到源码-spark-exercise-epf:火花运动-epf
文件大小:9KB
文件格式:ZIP
更新时间:2024-06-24 13:55:50
系统开源
java8 看不到源码火花练习 使用 Spark 预处理广告数据的练习 先决条件 安装 jdk-8 : jdk8-openjdk 安装 sbt 安装 intelij(可选) 开发功能 读取 json 数据框并为每一行创建一个具有唯一标识符的 RawDataframe 的数据集(为每列创建一个唯一的 id) 小写“os”列 用 4 个新列在 createEnrichedataset 函数中实现它来丰富数据框: 3.1 给定大小列创建两个不同的列:宽度和长度 3.2 给定时间戳创建两列:日期时间,并创建日期列 输出的最终数据帧是 createEnrichedataset 函数的结果 4. 计算每列空值的比率 将数据框保存到镶木地板,按日期分区 将数据帧保存到 avro,按日期分区 将数据帧保存到 json,按日期分区 对不同格式的写入时间进行基准测试,指定您拥有的计算资源,以及您的spark作业的配置,并说明差异的可能原因,在这种情况下,您更喜欢那种或这种格式(您可以直接在Readme中编写) 在 AdsProcesser 对象的 createEnrichedataset 函数中编写用于创
【文件预览】:
spark-exercise-epf-main
----.gitignore(323B)
----README.md(1KB)
----build.sbt(832B)
----src()
--------test()
--------main()
----stack()
--------zeppelin()
----version.sbt(31B)
----project()
--------build.properties(19B)