文件名称:metorikku:基于Apache Spark的简化,轻量级ETL框架
文件大小:1.19MB
文件格式:ZIP
更新时间:2024-02-20 14:46:30
scala sql big-data spark etl
Metorikku是一个库,可简化基于ETL的编写和执行。 它基于简单的YAML配置文件,并且可以在任何Spark群集上运行。 该平台还包括一种编写单元测试和端到端测试的简单方法。 入门 要运行Metorikku,您必须首先定义2个文件。 公制文件 度量标准文件定义了ETL的步骤和查询以及在何处输出什么。 例如,简单的配置YAML(也支持JSON)应如下所示: steps : - dataFrameName : df1 sql : SELECT * FROM input_1 WHERE id > 100 - dataFrameName : df2 sql : SELECT * FROM df1 WHERE id < 1000 output : - dataFrameName : df2 outputType : Parquet outputOptions : saveMode : Overwrite path : df2.parquet 您可以在检出完整的示例文件中所有可能的值。 确保还签出