全开源深度学习平台PaddlePaddle入手之路(一)----认识PaddlePaddle

时间:2024-02-18 21:27:00

       2016 年 9 月 1 日的百度世界大会上,百度首席科学家吴恩达宣布,该公司开发的异构分布式深度学习系统 PaddlePaddle 将对外开放。这标志着国内第一个机器学习开源平台的诞生。

 

  其实,PaddlePaddle平台 的开发与应用已经有段时日:它源自于 2013 年百度深度学习实验室创建的 “Paddle”。当时的深度学习框架大多只支持单 GPU 运算,对于百度这样需要对大规模数据进行处理的机构,这显然远远不够,极大拖慢了研究速度。百度急需一种能够支持多 GPU、多台机器并行计算的深度学习平台。而这就导致了 Paddle 的诞生。自 2013 年以来,Paddle 一直被百度内部的研发工程师们所使用。

 PaddlePaddle 项目的负责人--徐伟

   而 Paddle 的核心创始人,当年的百度深度学习实验室研究员徐伟,现在已经是 PaddlePaddle 项目的负责人。

       从 “Paddle” 到 “PaddlePaddle” 的命名还有一个小插曲:Paddle 是“Parallel Distributed Deep Learning”的缩写,意为“并行分布式深度学习”。而在2016年 9 月发布时,吴恩达认为 “PaddlePaddle” (英语意为划船——“让我们荡起双~昂~桨,小船儿推开波浪。。。”)其实更朗朗上口、更好记,于是就有了这么个可爱的名字。

      那么,PaddlePaddle 有什么特点?

  • 支持多种深度学习模型 DNN(深度神经网络)、CNN(卷积神经网络)、 RNN(递归神经网络),以及 NTM 这样的复杂记忆模型。
  • 基于 Spark,与它的整合程度很高。
  • 支持 Python C++ 语言。
  • 支持分布式计算。作为它的设计初衷,这使得 PaddlePaddle 能在多 GPU,多台机器上进行并行计算。

      相比现有各种热门的深度学习框架,PaddlePaddle 对开发者来说有什么优势呢?

        1.首先,是易用性

         相比偏底层的谷歌 TensorFlow,PaddlePaddle 的特点非常明显:它能让开发者聚焦于构建深度学习模型的高层部分。

         由于 PaddlePaddle 的定位是易于使用,因而相对 TensorFlow,PaddlePaddle 也更为易用,提供的每个任务都可迅速上手,且大部分任务可直接套用,只需使用现成的算法 (VGG、ResNet、LSTM、GRU 等等),按照示例执行命令,替换数据、修改参数就能执行。

         “在 PaddlePaddle 的帮助下,深度学习模型的设计如同编写伪代码一样容易,设计师只需关注模型的高层结构,而无需担心任何琐碎的底层问题。未来,程序员可以快速应用深度学习模型来解决医疗、金融等实际问题,让人工智能发挥出最大作用。”徐伟说到。抛开底层编码,使得 TensorFlow 里需要数行代码来实现的功能,可能在 PaddlePaddle 里只需要一两行。徐伟表示,用 PaddlePaddle 编写的机器翻译程序只需要“其他”深度学习工具四分之一的代码。

        2.其次,是更快的速度。

    如上所说,PaddlePaddle 上的代码更简洁,用它来开发模型显然能为开发者省去一些时间。这使得 PaddlePaddle 很适合于工业应用,尤其是需要快速开发的场景。

   另外,自诞生之日起,它就专注于充分利用 GPU 集群的性能,为分布式环境的并行计算进行加速。这使得在 PeddlePeddle 上,用大规模数据进行 AI 训练和推理可能要比 TensorFlow 这样的平台要快很多。

                                                                                                                                                                                                                                                2018-01-29  于北京