文件名称:lakeFS:对象存储的类似Git的功能
文件大小:4.34MB
文件格式:ZIP
更新时间:2024-02-24 08:09:05
go aws-s3 data-engineering data-lake object-storage
什么是lakeFS lakeFS是一个开源层,可为基于对象存储的数据湖提供弹性和可管理性。 借助lakeFS,您可以构建可重复的,原子的和版本化的数据湖操作-从复杂的ETL作业到数据科学和分析。 lakeFS支持将AWS S3或Google Cloud Storage作为其基础存储服务。 它与S3兼容,并且可以与所有现代数据框架(例如Spark,Hive,AWS Athena,Presto等)无缝协作。 有关更多信息,请参见。 能力 数据开发环境 实验-单独尝试工具,升级版本并评估代码更改。 可重现性-可以回到任何时间点来获得一致的数据湖版本。 持续数据整合 通过执行最佳实践来安全地摄取新数据-确保新数据源符合您湖中的最佳实践,例如格式和架构实施,命名约定等。 元数据验证-防止重大更改进入生产数据环境。 持续数据部署 即时恢复对数据的更改-如果您的消费者暴露了低质量的数据,则可以立即恢复到数据湖以前,一致且正确的快照。 增强交叉收集的一致性-向消费者提供必须以一种原子的,可恢复的动作同步的多个数据收集。 通过启用来防止数据质量问题 测试生产数据,然后再将其展示给用户