Spark SQL原理及实战

一、Spark SQL的发展

1、spark SQL和shark　　

　　SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效率，大量的SQL-on-Hadoop工具开始产生，其中表现较为突出的是：

　　　　1、MapR的Drill

　　　　2、Cloudera的Impala

　　　　3、Shark

　　Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），但SparkSQL摆脱了对Hive的依赖性，无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。

　　　　1、数据兼容方面 不但兼容Hive，还可以从RDD、parquet文件、JSON文件中获取数据，未来版本甚至支持获取RDBMS数据以及cassandra等NOSQL数据；

　　　　2、性能优化方面 除了采取In-Memory Columnar Storage、byte-code generation等优化技术外、将会引进Cost Model对查询进行动态评估、获取最佳物理计划等等；

　　　　3、组件扩展方面 无论是SQL的语法解析器、分析器还是优化器都可以重新定义，进行扩展；

2、Spark SQL的性能

　　1）内存列存储（In-Memory Columnar Storage）

　　　　 Spark SQL原理及实战

　　　　对于内存列存储来说，将所有原生数据类型的列采用原生数组来存储，将Hive支持的复杂数据类型(如array、map等)先序列化后并接成一个字节数组来存储。这样，每个列创建一个JVM对象，从而导致可以快速地GC和紧凑的数据存储。额外的，还可以用低廉CPU开销的高效压缩方法来降低内存开销。更有趣的是，对于分析查询中频繁使用的聚合特定列，性能会得到很大的提高，原因就是这些列的数据放在一起，更容易读入内存进行计算。

　　2）字节码生成技术（bytecode generation，即CG）

　　　　在数据库查询中有个昂贵的操作就是查询语句中的表达式，主要是由JVM的内存模型引起的。如SELECT a+b FROM table，这个查询里如果采用通用的SQL语法途径去处理，会先生成一个表达树，会多次设计虚函数的调用，这会打断CPU的正常流水线处理，减缓执行速度。

　　　　spark -1.1.0在catalyst模块的expressions增加了codegen模块，如果使用动态字节码生成技术，Spark SQL在执行物理计划时，会对匹配的表达式采用特定的代码动态编译，然后运行。

SQL查询的CG优化

3、Scala代码的优化

　　Spark SQL在使用Scala语言编写代码时，应尽量避免容易GC的低效代码。尽管增加了编写代码的难度，但对于用户来说，还是使用了统一的接口，让开发在使用上更加容易。

　　 Spark SQL原理及实战

　Scala代码的优化

二、Spark SQL运行架构

　　SparkSQL有两个分支，sqlContext和hiveContext，sqlContext现在只支持SQL语法解析器（SQL-92语法）；hiveContext现在支持SQL语法解析器和hivesql语法解析器，默认为hiveSQL语法解析器，用户可以通过配置切换成SQL语法解析器，来运行hiveSQL不支持的语法。

　　1）sqlContext具体的执行过程如下：

　　　　1、SQL | HQL语句经过SqlParse解析成UnresolvedLogicalPlan；

　　　　2、使用analyzer结合数据数据字典（catalog）进行绑定，生成resolvedLogicalPlan；在这个过程中，Catalog提取出SchemRDD，并注册类似case class的对象，然后把表注册进内存中。

　　　　3、Analyzed Logical Plan经过Catalyst Optimizer优化器优化处理后，生成Optimized Logical Plan，该过程完成以后，以下的部分在spark core中完成。

　　　　4、Optimized Logical Plan的结果交给SparkPlanner，然后SparkPlanner处理后交个PhysicalPlan，经过该过程后生成Spark Plan

　　　　5、使用SparkPlan将LogicalPlan转换成PhysicalPlan；

　　　　6、使用prepareForExecution()将PhysicalPlan转换成可执行物理计划；

　　　　7、使用execute()执行可执行物理计划；

　　　　8、生成SchemaRDD。

　　在整个运行过程中涉及到多个SparkSQL的组件，如SqlParse、analyzer、optimizer、SparkPlan等等

Spark SQL原理及实战

　　2）hiveContext总的一个过程如下图所示：

　　　　1、SQL语句经过HiveQl.parseSql解析成Unresolved LogicalPlan，在这个解析过程中对hiveql语句使用getAst()获取AST树，然后再进行解析；

　　　　2、使用analyzer结合数据hive源数据Metastore（新的catalog）进行绑定，生成resolved LogicalPlan；

　　　　3、使用optimizer对resolved LogicalPlan进行优化，生成optimized LogicalPlan，优化前使用了ExtractPythonUdfs(catalog.PreInsertionCasts(catalog.CreateTables(analyzed)))进行预处理；

　　　　4、使用hivePlanner将LogicalPlan转换成PhysicalPlan；

　　　　5、使用prepareForExecution()将PhysicalPlan转换成可执行物理计划；

　　　　6、使用execute()执行可执行物理计划；

　　　　7、执行后，使用map(_.copy)将结果导入SchemaRDD。

Spark SQL原理及实战

hiveContext执行过程

三、catalyst优化器

　　SparkSQL1.1.0总体上由四个模块组成：core、catalyst、hive、hive-Thriftserver:

　　　　1）core处理数据的输入输出，从不同的数据源获取数据（RDD、Parquet、json等），将查询结果输出成schemaRDD；

　　　　2）catalyst处理查询语句的整个处理过程，包括解析、绑定、优化、物理计划等，说其是优化器，还不如说是查询引擎；

　　　　3）hive对hive数据的处理

　　　　4）hive-ThriftServer提供CLI(命令行界面)和JDBC/ODBC接口

　　catalyst处于最核心的部分，其性能优劣将影响整体的性能。

　　 Spark SQL原理及实战

　　从上图看，catalyst主要的实现组件有：

　　　　1）sqlParse，完成sql语句的语法解析功能，目前只提供了一个简单的sql解析器；

　　　　2）Analyzer，主要完成绑定工作，将不同来源的Unresolved LogicalPlan和数据元数据（如hive metastore、Schema catalog）进行绑定，生成resolved LogicalPlan；

　　　　3）optimizer对resolved LogicalPlan进行优化，生成optimized LogicalPlan；

　　　　4）Planner将LogicalPlan转换成PhysicalPlan；

　　　　5）CostModel，主要根据过去的性能统计数据，选择最佳的物理执行计划

转载http://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool

Spark SQL原理及实战的更多相关文章

Spark SQL知识点与实战
Spark SQL概述 1.什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块. 与基本的Spark RDD API不同,Sp ...
Spark SQL原理和实现--王家林老师
Spark SQL源码解析（二）Antlr4解析Sql并生成树
Spark SQL原理解析前言: Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述这一次要开始真正介绍Spark解析SQL的流程,首先是从Sql Parse阶段开始,简单点说, ...
Spark SQL源码解析（三）Analysis阶段分析
Spark SQL原理解析前言: Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述 Spark SQL源码解析(二)Antlr4解析Sql并生成树 Analysis阶段概述首先 ...
Spark SQL源码解析（四）Optimization和Physical Planning阶段解析
Spark SQL原理解析前言: Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述 Spark SQL源码解析(二)Antlr4解析Sql并生成树 Spark SQL源码解析(三 ...
Spark SQL源码解析（五）SparkPlan准备和执行阶段
Spark SQL原理解析前言: Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述 Spark SQL源码解析(二)Antlr4解析Sql并生成树 Spark SQL源码解析(三 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark SQL数据加载和保存实战
一:前置知识详解: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数 ...
大数据技术之&lowbar;19&lowbar;Spark学习&lowbar;03&lowbar;Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...

随机推荐

sqlserver索引小结
1.1 什么是索引? SQL索引有两种,聚集索引和非聚集索引,索引主要目的是提高了SQL Server系统的性能,加快数据的查询速度与减少系统的响应时间下面举两个简单的例子: 图书馆的例子:一个图书 ...
PE355
似乎我和lyx讨论过这题..? LP可解决..(~0.8s)
Java Serializable
实现Serializable的class表明object可以被保存. 被保存的时候实际是存储class里的instance variable,这样在deserialization的时候可以恢复obje ...
45个必备的实用jQuery代码段[转载]
1. 如何创建嵌套的过滤器: //允许你减少集合中的匹配元素的过滤器, //只剩下那些与给定的选择器匹配的部分.在这种情况下, //查询删除了任何没(:not)有(:has) //包含class为“s ...
新手求大神,有其他swit-case的思路写这个程序么&quest;
两个程序: switch-case与if-else if的区别相同点:可以实现多分支结构;不同点:switch:一般只能用于等值比较.(可以进行范围运算???---学会用switch计算范围出炉的思路 ...
monkey 命令详解
monkey命令详解 1. $ adb shell monkey <event-count> <event-count>是随机发送事件数例 ...
笔记react router 4（一）
用过react router4.X的小伙伴一定知道,比起3.X的版本,router的使用上有了很大的改变. 首先,我们只需要安装 react-router-dom 即可使用.看到“dom”想必你就该知 ...
windows 10 开发学习资料，Windows-universal-samples学习笔记系列一：App settings
windows 10 通用代码范例: https://github.com/Microsoft/Windows-universal-samples 相关视频:https://mix.office.co ...
C语言字节对齐问题详解
引言考虑下面的结构体定义: typedef struct{ char c1; short s; char c2; int i; }T_FOO; 假设这个结构体的成员在内存中是紧凑排列的,且c1的起始 ...
816D&period;Karen and Test 杨辉三角规律组合
LINK 题意:给出n个数,每个数对间进行加或减,结果作为下一层的数,问最后的值为多少思路:首先我们发现很像杨辉三角,然后考虑如何计算每个数对结果的贡献值,找规律可以发现当数的个数为偶数时,其所在层 ...