sparkSQL——DataFrame&Datasets

时间:2023-03-09 16:29:13
sparkSQL——DataFrame&Datasets

对于新司机,可能看到sc与spark不知道是什么,看图知意

sparkSQL——DataFrame&Datasets

***************************************************************************************************************************************

DataFrame.map(_.split("::"))报错 error: value split is not a member of org.apache.spark.sql.Row

看到下图红框报错处Row,想起DataFrame里的Row对象,虽然每一行是一列数据,但是需要将Row对象转换成String对象,才可以走split方法

sparkSQL——DataFrame&Datasets

看下图,

spark.read.json返回类型是DataFrame

spark.read.textFile返回类型是Dataset

sparkSQL——DataFrame&Datasets

***************************************************************************************************************************************

由于 RDD、DataFrame、DataSets 之间是可以相互转化的,所以可通过多种方式读取数据,并进行互相进行转化

如下图:

sparkSQL——DataFrame&Datasets

***************************************************************************************************************************************

接下来这是另一个错,算是,恩,算是什么呢?

sparkSQL——DataFrame&Datasets

***************************************************************************************************************************************

来看一个join的例子

sparkSQL——DataFrame&Datasets

或者使用下面的方式,如果用左联接的话,只需要将inner改为leftouter

sparkSQL——DataFrame&Datasets

***************************************************************************************************************************************

创建临时表

sparkSQL——DataFrame&Datasets

***************************************************************************************************************************************

创建全局表

sparkSQL——DataFrame&Datasets

sparkSQL——DataFrame&Datasets