文件名称:Spark SQL源码概览.pdf
文件大小:368KB
文件格式:PDF
更新时间:2023-01-31 11:02:01
Spark SQL
Spark SQL 包含 3 个子项目:Core、Catalyst、Hive。其中 Catalyst 是核心的查询优化引 擎,独立于 Spark 平台;Spark SQL Core 封装 Catalyst,向应用程序提供 SparkSession、Dataset、 DataFrame 等 API(DataFrame 是 Dataset[Row]的别名);Spark SQL Hive 则提供操作 Hive 的 接口。本文主要关注查询执行过程,不涉及 Hive。