文件名称:bigData-starter:spark-starter,hive-starter,hbase-starter
文件大小:6.39MB
文件格式:ZIP
更新时间:2024-06-02 22:39:21
Java
基本原理 RDD,弹性分布式数据集,即分布式的元素集合。 在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含Python,Java,Scala中任意类型的对象,甚至可以包含用户自定义的对象。 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序中分发驱动器程序中的对象集合,比如list或者set。 RDD的转化操作都是惰性求值的,这意味着我们对RDD调用转化操作,操作不会立即执行。相反,Spark会在内部记录下所要求执行的操作的相关信息。我们不应该把RDD看做存放着特定数据的数据集,而最好把每个RDD当做我们通过转化操作构建出
【文件预览】:
bigData-starter-master
----pom.xml(909B)
----spark-starter()
--------pom.xml(9KB)
--------src()
----hbase-starter()
--------pom.xml(4KB)
--------src()
----.gitignore(2KB)
----hive-starter()
--------pom.xml(1KB)
--------src()
----README.md(8KB)