文件名称:厚皮:大规模可再生数据科学!
文件大小:113.71MB
文件格式:ZIP
更新时间:2024-02-22 23:32:35
go docker kubernetes distributed-systems data-science
Pachyderm:数据版本控制,数据管道和数据沿袭 Pachyderm是用于生产数据管道的工具。 如果您需要以理智的方式将数据抓取,提取,清理,整理,整理,处理,建模和分析链接在一起,那么Pachyderm就是您的理想选择。 如果您有一组以临时方式执行此操作的脚本,并且您正在寻找一种“生产”它们的方法,那么Pachyderm可以使您轻松实现这一点。 产品特点 容器化:Pachyderm基于Docker和Kubernetes构建。 无论您的管道需要哪种语言或库,它们都可以在Pachyderm上运行,而Pachyderm可以轻松地部署在任何云提供商或Prem上。 版本控制:Pachyderm版本在处理数据时控制您的数据。 您总是可以询问系统数据如何更改,查看差异,以及如果看起来不正确,请还原。 来源(又称数据沿袭):Pachyderm跟踪数据的来源。 Pachyderm跟踪创建结果的所有代码和数据。 并行化:Pachyderm可以高效地调度大规模并行工作负载。 增量处理:Pachyderm了解您的数据是如何变化的,并且足够聪明,只能处理新数据。 入门 或在大约5分钟内在。 您也