讲师:Yiheng Wang (Intel)
13:30–17:00 周四, 2017-07-13
Spark及更多发展
地点: 报告厅
观众水平: 中级
必要预备知识
Basic understand of deep learning, and has experience of Apache Spark.
您将学到什么
The attendees will know how to develop deep learning applications on Apache Spark and learn some real use case.
描述
深度学习已经在很多的领域(例如计算机视觉、自然语言处理和语音识别等)取得了顶尖水准的表现,对工业界有极大的潜在应用价值。我们应该注意到深度学习和大数据的联系非常得紧密。首先,深度学习的模型需要使用大量的数据来训练,这就是为什么它直到大数据时代才开始蓬勃发展。其次,现在绝大部分的大数据都是视频、音频和文字数据,非常适合使用深度学习算法来处理。为了能释放深度学习的能力,我们就应该把它运用在大数据的环境里。
工业界已经构建了丰富的大数据生态系统,从分布式数据存储,到高速流计算系统,以及数据处理引擎。Apache Spark就是一个广为人知的大数据处理引擎。它提供了一个完整的框架来统一支持不同的大数据任务(SQL、流计算和机器学习)。大家已经使用它构建了大量的大数据应用。
这就是为什么我们要引入BigDL。BigDL是一个基于Apache Spark的大数据分布式的深度学习框架。它集成了“高性能计算”和“大数据”架构的优点,为Spark提供了原生的深度学习的支持。同时为现成的使用单节点的开源深度学习框架(如Caffeh和Torch)带来了数量级的性能速度提升,并为它们提供了基于Spark架构的对深度学习任务的水平扩展的能力。
在这个教学课程里,我们会介绍BigDL的功能,用例子来展示如何进行开发。我们还会分享我们的用户是如何在他们的深度学习应用(如图像识别、物体检测和自然语言处理等)中采用BigDL的案例。这些案例显示了用户可以使用他们的大数据平台(例如使用Apache Hadoop和Spark)作为一个统一的数据分析平台来进行数据存储、数据处理和挖掘、特征工程、传统的(非深度)机器学习和深度学习等各种任务。
讲师介绍
Yiheng Wang
Intel
Yiheng Wang is a software development engineer on the Big Data Technology team at Intel who works in the area of big data analytics. He and his colleagues are developing and optimizing distributed machine-learning algorithms (e.g., neural network and logistic regression) on Apache Spark. He also helps Intel customers build and optimize their big data analytics applications.
Strata Data Conference北京站已经打开注册系统,阅读原文可浏览截止到目前为止的讲师名单和已经确认的议题,最优惠票价期截止到5月5日为止,尽快注册以确保留位。