SparkSql和DataFrame实战.docx

时间:2021-06-21 03:10:05
【文件属性】:

文件名称:SparkSql和DataFrame实战.docx

文件大小:908KB

文件格式:DOCX

更新时间:2021-06-21 03:10:05

大数据 spark DateFrame

文档主要介绍了环境搭建和配置使用 1. 什么是Spark SQL Spark SQL的一个用途是执行使用基本SQL语法或HiveQL编写的SQL查询。Spark SQL还可以用于从现有的Hive安装中读取数据。有关如何配置此功能的更多信息,请参考Hive表格部分。当从另一种编程语言中运行SQL时,结果将作为DataFrame返回。您还可以使用命令行或jdbc/odbc来与SQL接口进行交互。 2. 什么是DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在Spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequencefile 等等)、Hive、关系数据库、cassandra等


网友评论