前OpenAI科学家辞职创立智能机器人公司，我们和他们的CEO聊了聊

撰文 | 彭君韬（Tony）

编辑 | 刘燕

2016 年年初，加州伯克利大学的教授、机器人学习大牛 Pieter Abbeel，带着他的两个博士 Peter Chen和 Rocky Duan，加入了位于旧金山的非营利性人工智能（A.I.）研究机构 OpenAI。在过去的一年半的时间，他们三人参与并贡献了整个机构 40% 的论文发表，在强化学习和生成模型上做出了很多成绩。

Chen 在回忆这段光景的时候感叹道，「最大的收获是 ambition（志向），」他顿了顿，又改了口，「确切地说是 perspective（视野）。相比于学术界，OpenAI 很不一样，这里的研究拓展了你的视线，让你在想能不能跳出一个细小的问题，去想一个更长期的目标。」

在这一年半的时间里，Chen 慢慢明确了自己想达到的目标，以及实现这个目标的路径。今年 9 月，Abbeel、Chen 和 Duan 同时离开了 OpenAI，并拉上了前微软研究员 Tianhao Zhang ，成立了一家致力于研究智能机器人（学徒）的初创公司 Embodied Intelligence。

在外人眼里，机器人或许只是一堆拼装在一起的、能重复简单动作的硬件，但 Embodied Intelligence 希望赋予他们快速学习的能力，可以通过算法学习完成任务，并将自动化技术应用到世界范围内的工厂、仓库、甚至是家庭中。「传统的机器人编程非常耗费时间，只有专业人员才能进行。」Embodied Intelligence 总裁、首席科学家 Abbeel 说，「我们提供的智能模块可以接入任何市面上的机器人，让它们可以自然地学习新的技能，无需编写晦涩难懂的代码。」

前OpenAI科学家辞职创立智能机器人公司，我们和他们的CEO聊了聊

创立之初，Embodied Intelligence 的办公地还在伯克利大学的机器人实验室，Chen 的博士生岁月几乎也都是在这里度过。除了其他研究员外，实验室还有一个叫做 Bred/Brett 的机器人。伯克利的学生们没少在它身上下功夫：教它捡东西、拼装、实物操作。之后，成立仅两个月的 Embodied Intelligence 就获得了硅谷风险投资机构 Amplify Partners 和其他投资方的共 700 万美元的种子轮融资，其中包括一家来自中国的风投峰瑞资本（FreeS）。

三周前，公司从伯克利搬到了附近埃默里维尔市（Emeryville）。机器之心在他们的新办公室里，和公司CEO Peter Chen 聊了聊从出走 OpenAI 到开始创办运营一家公司的历程。看得出 Chen 很忙，采访的时候也很难无法完全放下手上的活儿，需要时不时地翻看一下笔记本上的代码和手机上的消息。不过他直言，从伯克利博士生，到 OpenAI 研究员，再到如今公司的 CEO，他并没有觉得很强烈的角色变换。「我们依然在做一个研究项目，只不过要实现落地的话，就需要建立一个公司。」

传统机器人的硬伤

工业机器人的痛点，是每一个想要做智能机器人创业公司的机会。

目前，工业机器人的硬件水准是无可挑剔的。市面上大部分机器人都可以达到百分之一毫米的精确度，而且一个三五十万的机械臂的耐久度至少是五至十年的时间。机器人可以完成批量地、重复的动作、在生产线上进行装配，满足刚性制造所需的大批量生产。

但机器人的每一个动作都需要工程师在背后进行精细的编程，从拿起一个元件，到装配到另一个元件上，编程的过程都需要考量诸如距离、角度这样的条件。很多在人类看来非常简单的动作，对机器人来说却是很大的挑战。

比如，将两个齿轮合在一起，人类只要拧一拧调整一下角度就可以轻松地将齿轮卡住，但机器人不这么觉得。如果用传统机械的方法，工程师需要准确的监测到两个齿轮之间的角度差异，然后来回进行转动让它完美地契合在一起，这立刻就变得变成一个很困难的工程问题。

「任何需要用眼来看，然后用手来去进行适应性的操作，都是对传统机器人的挑战，」Chen 说。越来越多年轻人不愿意在工厂或者仓库里做这些枯燥的、重复的动作，但传统机器人又无法适应柔性的、可以随时变化操作的工业制造。Chen 想要在短时间内解决的就是，让机器人既可以组装齿轮，下一秒也可以去装备其他的元件或者完成其他的动作。

智能机器人的解决方法可以有很多。今年受机器人公司关注的有谷歌提出的自我监督模仿（Self-Supervised Imitation）。通过一种叫做时间对比网络（Time-Contrastive Networks）的神经网络，机器人能够自我学习视频里的动作，比如倒水，或者站立。

Chen 则将希望寄托于深度强化学习。这种基于环境而行动、从而获得最大化利益的机器学习方法，在过去的两年时间里成功地让电脑学会了下围棋和打游戏。

2015 年，Chen 过去所在的伯克利机器人实验室，已经通过深度强化学习让机器人获得了一种类似于视觉肌肉记忆的能力（Visual Motor Skills）。人类在做很多动作时不会认真经过大脑思考。比如在人喝水前，并不会在脑海里提前画上一个从拿起杯子——转动杯子角度——将水倒入嘴里的草图，而是根据条件反射直接拿起杯子喝水。

这个过程并不复杂：深度神经网络就像人类的大脑一样，它能够处理视觉数据，让机器拥有模拟人类条件反射的能力；模拟之后，接下来就是训练机器的方法。利用深度强化学习，机器人能通过不断地试错和奖励机制找到学习这个动作的「窍门」。这种学习动作的过程不需要手把手的编程。

但是，两年前的方法最终只停留在理论阶段。机器人的深度强化学习需要一个引导设置，而不是漫无目的地试错，这就需要拥有强化学习知识的人才（主力是博士生）完成前期的编程和调试。一个大学里的实验室可以让几个博士生没日没夜的埋头苦干，但这显然不适用于工业界。

因此，直到两年后，Chen 的团队找到了能够落地的解决方案——模拟学习（Imitation Learning）。

模拟学习搭配强化学习

消费级 VR 设备的出现，为很多 AI 公司提供了意外惊喜。Embodied Intelligence 使用了 VR 设备实现了机器人模拟学习的能力。据 Chen 介绍，模拟学习的主要研究出自另一位联合创始人 Tianhao Zhang 之手。

前OpenAI科学家辞职创立智能机器人公司，我们和他们的CEO聊了聊

任何人带上 VR 设备，拿上遥控器，就相当于人在实时遥控一个机器人。机器人只需实时追踪 VR 设备的手的运动轨迹，VR 中的示范数据则将用来训练深度神经网络。在这个过程中，机器人持续地学习，直到它表示：「我学会了。现在我可以自己接手了。」整个过程只需要 30 分钟。按照 Chen 的话说，即使是这 30 分钟再乘上 100 倍，也比过去训练机器人动作的成本要小。

这种方法具有很好的迁移性或者说适用性。即使是不同的动作，它背后的代码是一模一样的，包括 VR 的代码、收集示范动作的代码、训练的代码，以及神经网络学习的代码，都是一样的。唯一的不同只是示范的动作而已。

目前，Embodied Intelligence 的机器人学过时间最长的动作是将近一分钟，学习动作并没有明确的规定，大部分人类凭条件反射就能完成的动作，机器人都可以学习。但还不知道机器人是否能学习一些非常规的动作，比如上周波士顿动力机器人 Atlas 的后空翻。

完成模拟学习后，机器人依然需要强化学习的介入，让它能够继续进行自我学习。人类的动作有些时候并非最有效的，比如在走路时沿着一个弧线，这可能不是最优的结果，或者人在走路的时候会有一些颤抖也是很有可能的，但对一个机器人来说，通过强化学习可以让动作变得更加高效。

「近段时间 AI 领域的突破性进展已让机器人学会行走，通过反复试错学习操纵物体，以及从 VR 收集的示范数据来学习新的技能。但是，这些进展都局限于仿真或实验室环境。」Amplify Partners 合伙人Sunil Dhaliwal 说，「Embodied Intelligence 团队推动了很多这些进展，而现在他们将把这些最前沿的人工智能和机器人领域的进展引进具体的应用场景中。」

据 Chen 透露，这套基于模拟学习和强化学习的机器人应用将在明年投身工业界，通过这套流程，机器人可以轻松地学会广泛的技能，尤其在那些传统解决方案望而却步的应用领域，比如操纵可变形的物体——电线、丝料、布料、服装、液体包装、食品等，在不规则、杂乱环境中分拣、整理物品，复杂的拼装任务。而随着材料不规整程度的增加，以及个性化订单的增长，传统硬编码的方式尤其展现出其局限性。

只不过，Embodied Intelligence 的蓝图并不尽于此。

五到十年，实现元学习

模拟学习+强化学习是一个 Embodied Intelligence 能够短期内提供的智能解决方案，元学习（Meta Learning）才是这家公司放眼未来五年到十年的核心。「机器人和人力的关键区别是『教』的成本，我们想把机器人变得和人一样可教。现阶段，我们只是在减少教的时间。」

什么是元学习？简答来说，就是让机器人学会一个学习策略。过去的深度学习是通过输入大量的数据得到一个结果，而元学习则是从少量数据中获得学习这类任务的方法。换言之，这也是一种体现在机器人上的通用人工智能（Artificial General Intelligence），也是为什么Chen会将公司取名为Embodied（具现） Intelligence（智能）。

Chen 在元学习上已经有了一些研究上的成果。今年，Chen 联合他的导师在 arXiv 上发表了两篇关于元学习的论文。Meta Learning Shared Hierarchies 研究了一种用于学习层次结构化策略的元学习方法，通过使用共享基元提高未见任务的样本效率；另一篇 Meta-Learning with Temporal Convolutions 则提出了一类基于时间卷积的简单和通用的元学习器体系结构，这个结构不限领域，而且没有使用特定的策略或算法进行编码。

在 Chen 设想的蓝图里，Embodied Intelligence 最终实现的智能机器人将同时拥有元学习和强化学习的能力。「强化学习在单一任务上表现的很好，元学习是让机器人掌握快速学习，这两者在未来是可以互补的。」

身在硅谷的 Chen 面临的压力不小，除了像谷歌这样的科技巨头发力智能机器人外，不少初创公司也有这样的野心，在距离埃默里维尔市开车 20 分钟的联合城市（Union City），同样一家机器人公司Vicarious.ai 在为实现具有人类智能的机器人夜以继日。该公司的 CTO Dileep George 曾告诉机器之心，他们选择了一条完全不同于深度学习和强化学习的路径——通过模拟人类的视觉皮质，结合生成模型，让机器能够模拟物体的结构，从而获得对物体本身的理解能力。而他们预期在 2040 年前后实现。

没有人能确定哪一条路能通往人工智能的终极圣杯。但从现在来看，带着伯克利和 OpenAI 最新研究出走的 Embodied Intelligence 是走在了机器人科研的最前沿。前OpenAI科学家辞职创立智能机器人公司，我们和他们的CEO聊了聊