文件名称:SparkPipelineFramework:用于更简单的Spark Pipelines的框架
文件大小:2.39MB
文件格式:ZIP
更新时间:2024-03-01 17:36:37
Python
SparkPipelineFramework SparkPipelineFramework实现了一些设计模式,以使创建Spark应用程序更加容易,这些应用程序: 将数据转换逻辑与管道执行代码分开,因此您只需将转换器串联在一起就可以组成管道。 (基于SparkML Pipeline类,但已增强为可用于ML和非ML转换) 无需编写任何代码即可运行SQL转换 启用转换的版本控制,以便不同的管道可以使用每个转换器的旧版本或新版本。 这使您可以自行选择升级每个管道 在创建管道时启用转换的自动完成功能(在PyCharm中)。 实施许多关注点分离,例如日志记录,性能监控,错误报告 支持非ML,ML和混合工作负载 还有一个额外的库SparkPipelineFramework.AWS,使在AWS中运行Spark管道更加容易 拥有一个姐妹库SparkPipelineFramework.Catalog,