文件名称:spark官方文档中文版
文件大小:2MB
文件格式:ZIP
更新时间:2022-03-16 14:31:49
spark
Spark 应用程序都由一个驱动程序(driver programe)构成,驱动程序在集群上运行用户的 mian 函数来执行 各种各样的并行操作(parallel operations)。Spark 的主要抽象是提供一个弹性分布式数据集(RDD),RDD 是指能横跨集群所 有节点进行并行计算的分区元素集合。RDDs 从 Hadoop 的文件系统中的一个文件中创建而来(或其他 Hadoop 支持的文件系 统),或者从一个已有的 Scala 集合转换得到。用户可以要求 Spark 将 RDD 持久化(persist)到内存中,来让它在并行计算中 高效地重用。最后,RDDs 能在节点失败中自动地恢复过来。