Apache Arrow DataFusion 和 Ballista 查询引擎

时间:2024-07-18 13:00:32
【文件属性】:

文件名称:Apache Arrow DataFusion 和 Ballista 查询引擎

文件大小:2MB

文件格式:ZIP

更新时间:2024-07-18 13:00:32

arrow-datafusion

数据融合DataFusion 是一个可扩展的查询执行框架,用 Rust 编写,使用Apache Arrow作为其内存格式。DataFusion 支持用于构建逻辑查询计划的 SQL 和 DataFrame API,以及能够使用线程对分区数据源(CSV 和 Parquet)并行执行的查询优化器和执行引擎。用例DataFusion 用于创建现代、快速和高效的数据管道、ETL 流程和数据库系统,这些系统需要 Rust 和 Apache Arrow 的性能,并希望为其用户提供 SQL 接口或 DataFrame API 的便利性。为什么选择数据融合?高性能:利用 Rust 和 Arrow 的内存模型,DataFusion 实现了非常高的性能易于连接:作为 Apache Arrow 生态系统(Arrow、Parquet 和 Flight)的一部分,DataFusion 与大数据生态系统的其余部分配合良好易于嵌入:几乎可以在其设计的任何一点进行扩展,DataFusion 可以针对您的特定用例进行定制高质量:DataFusion 本身以及与 Arrow 生态系统的其余部分都经过广泛测试,可用作生产系统


网友评论