Spark快速数据处理

时间:2018-09-20 09:29:35
【文件属性】:

文件名称:Spark快速数据处理

文件大小:23.97MB

文件格式:PDF

更新时间:2018-09-20 09:29:35

Spark 数据处理

Spark是一个通用的并行分布式计算框架,由UCBerkeley的AMP实验室开发。Spark使得程序员更容易地编写分布式应用,并且能够根据自己的喜好使用Scala、Java或者Python作为开发语言。本书系统讲解了Spark的应用方法,包括如下内容:第1章介绍如何在多种机器上安装Spark,以及如何配置一个Spark集群。第2章介绍如何在交互模式下运行第一个Spark作业。第3章介绍如何在Spark集群上构建一个生产级的脱机\独立作业。第4章介绍如何与Spark集群建立连接,以及SparkContext的使用。第5章介绍如何创建和保存RDD(弹性分布式数据集)。第6章介绍如何用Spark分布式处理你的数据。第7章介绍如何设置Shark,将Hive查询集成到你的Spark作业中来。第8章介绍如何测试Spark作业。第九章介绍如何提升Spark任务的性能。


网友评论

  • 这个本书不错,可以学习
  • 非常好的书,感谢楼主
  • 还不错的资源,很好。
  • 入门级很实用的书籍
  • 遍地都将大数据的年代,这个要好好学习一下。
  • 资源可用,谢楼主
  • 好好学习这方面的资源
  • 非常好的书恩
  • 同事用的,说参考不错
  • 正在做有关BI的项目,非常有帮助,感谢
  • 我也正需要这本资料
  • 感谢楼主的无私奉献,正需要这方面的资料!
  • 正在学习spark,这个资料正是我需要的。谢谢!
  • 例子简单实用,但如果再全面些就更好了
  • 我正需要这本资料