O'Reilly精品图书推荐：Spark高级数据分析

书名：Spark高级数据分析

作者：Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills 著

译者：龚少成译

国内出版社：人民邮电出版社

出版时间：2015年11月

页数：226

书号：978-7-115-40474-9

原版书书名：Advanced Analytics with Spark

原版书出版商：O'Reilly Media

编辑推荐

这是一本实用手册，四位作者均是Cloudera公司的数据科学家，他们联袂展示了利用Spark进行大规模数据分析的若干模式，而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来，通过实例向读者讲述了怎样解决分析型问题。

本书首先介绍了Spark及其生态系统，接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解，并且会用Java、Python或Scala编程，这些模式将有助于你开发自己的数据应用。

本书介绍了以下模式：

音乐推荐和Audioscrobbler数据集
用决策树算法预测森林植被
基于K均值聚类进行网络流量的异常检测
基于潜在语义分析技术分析*
用GraphX分析伴生网络
对纽约出租车轨迹进行空间和时间数据分析
通过蒙特卡罗模拟来评估金融风险
基因数据分析和BDG项目
用PySpark和Thunder分析神经图像数据

序

自从在加州大学伯克利分校创立Spark 项目起，我就时常心潮澎湃。不仅因为Spark 可以帮助人们快速构建并行系统，更因为Spark 帮助了越来越多的人使用大规模计算。因此看到这本介绍Spark 高级分析的书，我非常欣慰！该书由数据科学领域四位专家Sandy、Uri、Sean 和Josh 携手打造。四位作者研习Spark 已久，他们在本书中跟读者分享了关于Spark 的大量精彩内容，同时本书的案例部分同样出众！

对于这本书，我最钟爱的是它强调案例，而且这些案例都源于现实数据和实际应用。找到一个像样的、能在笔记本电脑上运行的大数据案例已经很难，更遑论十个了。但本书作者做到了！作者为大家准备好了一切，只等你在Spark 中运行它们。更难能可贵的是，作者不仅讨论了核心算法，更倾心于数据准备和模型调优，没有这些工作，实际项目中就无法得到好的结果。认真研读此书，你应该可以吸收这些案例中的概念并直接将其运用在自己的项目中！

大数据处理无疑是当今计算领域最激动人心的方向之一，发展非常迅猛，新思想层出不穷。愿本书能帮助你在这个崭新的领域中扬帆启航！

——Matei Zaharia

Databricks 公司CTO 兼Apache Spark 项目副总裁

作者简介

Sandy Ryza

是Cloudera公司资深数据科学家，Apache Spark项目的活跃代码贡献者。最近领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。

Uri Laserson

是Cloudera公司资深数据科学家，专注于Hadoop生态系统中的Python部分。

Sean Owen

是Cloudera公司EMEA地区的数据科学总监，也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx（之前称为Myrrix）。

Josh Wills

是Cloudera公司的高级数据科学总监，Apache Crunch项目的发起者和副总裁。

O'Reilly精品图书推荐：Spark高级数据分析

秒客网

O'Reilly精品图书推荐：Spark高级数据分析

相关文章