文件名称:simplesparkavroapp:读取和写入 Avro 数据的简单 Spark 应用程序
文件大小:14KB
文件格式:ZIP
更新时间:2024-07-02 14:50:13
Scala
Spark 与 Avro 和 Parquet 随附一个简单的 Spark 应用程序,演示如何以 Parquet 和 Avro 格式读取和写入数据。 Avro 指的是二进制格式和内存中的 Java 对象表示。 Parquet 仅指一种二进制格式,它支持可插入的内存表示。 Parquet 的内存中表示的选项之一是 Avro,这是我们在这里使用并普遍推荐的选项。 Avro 实际上有两个内存表示。 “特定”记录依赖于生成的代码。 “通用”记录本质上将对象表示为键值对。 我们在这里使用特定的表示,因为一旦设置了代码生成,它会更高效且更容易编程。 编译和打包: mvn package 这将从 Avro 模式生成 Java 类并构建项目。 Avro 模式是一个简单的“用户”对象,定义在 src/main/resources/user.avsc 中。 要测试写入 Avro 文件: spa
【文件预览】:
simplesparkavroapp-specifics
----.gitignore(12B)
----data()
--------users.avro()
--------users.parquet()
----src()
--------main()
----pom.xml(4KB)
----README.md(2KB)