文件名称:Spark快速数据处理
文件大小:23.97MB
文件格式:PDF
更新时间:2018-09-20 09:29:35
Spark 数据处理
Spark是一个通用的并行分布式计算框架,由UCBerkeley的AMP实验室开发。Spark使得程序员更容易地编写分布式应用,并且能够根据自己的喜好使用Scala、Java或者Python作为开发语言。本书系统讲解了Spark的应用方法,包括如下内容:第1章介绍如何在多种机器上安装Spark,以及如何配置一个Spark集群。第2章介绍如何在交互模式下运行第一个Spark作业。第3章介绍如何在Spark集群上构建一个生产级的脱机\独立作业。第4章介绍如何与Spark集群建立连接,以及SparkContext的使用。第5章介绍如何创建和保存RDD(弹性分布式数据集)。第6章介绍如何用Spark分布式处理你的数据。第7章介绍如何设置Shark,将Hive查询集成到你的Spark作业中来。第8章介绍如何测试Spark作业。第九章介绍如何提升Spark任务的性能。