envelope:在Apache Spark上构建配置驱动的ETL管道

时间:2024-05-27 23:51:46
【文件属性】:

文件名称:envelope:在Apache Spark上构建配置驱动的ETL管道

文件大小:940KB

文件格式:ZIP

更新时间:2024-05-27 23:51:46

Java

信封 Envelope是Apache Spark的配置驱动框架,可轻松开发基于Spark的数据处理管道。 Envelope只是一个预制的Spark应用程序,它实现了ETL管道中常见的许多任务。 在许多情况下,Envelope允许在Spark上开发大型管道,而无需编码。 当需要自定义代码时,Envelope中有可插拔的点,用于扩展核心功能。 信封以批处理和流模式工作。 您可以轻松使用Envelope进行操作的一些示例: 在单个Spark作业的内存中运行一个Spark SQL查询图 从Apache Kafka流入事件数据,加入参考数据,然后写入Apache Kudu 从RDBMS表中读取并写入HDFS上的Apache Parquet文件 自动合并为缓慢变化的尺寸(类型1和2,以及双时态) 插入自定义DataFrame转换逻辑以执行复杂的业务规则 开始吧 要求 信封需要Apache S


网友评论