Spark SQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQL on Spark。 之前,Shark的查询编译和优化器依赖于Hive,使得Shark不得不维护一套Hive分支,而Spark SQL使用Catalyst做查询解析和优化器,并在底层使用Spark作为执行引擎实现SQL的Operator。 用户可以在Spark上直接书写SQL,相当于为Spark扩充了一套SQL算子,这无疑更加丰富了Spark的算子和功能,同时Spark SQL不断兼容不同的持久化存储(如HDFS、 Hive等),为其发展奠定广阔的空间。
相关文章
- Spark RDD概念学习系列之RDD的checkpoint(九)
- Spark SQL之External DataSource外部数据源(一)示例
- Spark SQL/Hive 同一列的多行记录合并为一行
- Spark RDD概念学习系列之RDD的容错机制(十七)
- Spark RDD概念学习系列之RDD的缺点(二)
- Spark SQL概念学习系列之Spark SQL 架构分析(四)
- Spark RDD概念学习系列之RDD的五大特征
- Apache Spark源码走读之11 -- sql的解析与执行
- Spark SQL 源代码分析之Physical Plan 到 RDD的详细实现
- Spark RDD概念学习系列之RDD的操作(七)