【文件属性】:
文件名称:metorikku:基于Apache Spark的简化,轻量级ETL框架
文件大小:1.19MB
文件格式:ZIP
更新时间:2021-01-30 20:59:50
scala sql big-data spark etl
Metorikku是一个库,可简化基于ETL的编写和执行。
它基于简单的YAML配置文件,并且可以在任何Spark群集上运行。
该平台还包括一种编写单元测试和端到端测试的简单方法。
入门
要运行Metorikku,您必须首先定义2个文件。
公制文件
度量标准文件定义了ETL的步骤和查询以及在何处输出什么。
例如,简单的配置YAML(也支持JSON)应如下所示:
steps :
- dataFrameName : df1
sql :
SELECT *
FROM input_1
WHERE id > 100
- dataFrameName : df2
sql :
SELECT *
FROM df1
WHERE id < 1000
output :
- dataFrameName : df2
outputType : Parquet
outputOptions :
saveMode : Overwrite
path : df2.parquet
您可以在检出完整的示例文件中所有可能的值。
确保还签出