文件名称:fugue:分布式计算和机器学习的抽象层。 Fugue 移植 SQL、Python 和 Pandas 代码以在 Spark 和 Dask 上运行
文件大小:2.32MB
文件格式:ZIP
更新时间:2024-08-24 08:25:37
distributed-systems machine-learning sql spark distributed-computing
Fugue 是一个纯抽象层,它使 Python 和 SQL 代码可以跨不同的计算框架(如 Pandas、Spark 和 Dask)移植。 与框架无关的代码:在本机 Python 或 SQL 中编写一次代码。 Fugue 使其可以在 Pandas、Dask 或 Spark 上运行,并且只需少量更改。 逻辑和代码与框架分离,甚至与 Fugue 本身分离。 Fugue 使用户的代码适应底层计算框架。 用户无需学习特定的框架语法即可使用 Spark 和 Dask 引擎。 大数据项目的快速迭代:在较小的数据上测试代码,然后在准备好时可靠地扩展到 Dask 或 Spark。 这大大缩短了项目迭代时间并减少了集群使用。 这减少了旋转集群以测试代码的频率,并减少了代价高昂的错误。 从 Pandas 大小的数据过渡到更大的数据集也变得微不足道。 Spark更友好的界面:与 Spark 用户定义函数 (