神经网络不可思议的声誉

原文链接：The Unreasonable Reputation of Neural Networks
作者：Luke Hewitt（MIT脑认知科学PhD）
译者：刘翔宇审校：刘帝伟
责编：周建丁

如今不迷恋深度学习是不可能的，你可以看到神经网络正在发挥它无止境的技巧。在我看来，神经网络给我们留下深刻印象至少有两个原因：

（1）神经网络可以从弱先验中学习建立许多良好的自然功能模型

将分层、分布式的表示与快速的、经GPU优化的梯度计算结合的思想是非常强大的。初期的神经网络会碰到局部最优的问题，但是训练更深层网络的能力解决了此问题，并使得反向传播大放光彩。在通过简单的架构决策得到少量的专业知识之后，深度学习的实践者们现在找到了一系列强大的参数函数以及优化它们的实用方法。

第一个这种架构决策是卷积或者递归结构的使用，向模型输入空间和时间上不变的数据。单凭这点，神经网络在图像分类，语音识别，机器翻译，Atari游戏以及许多其他领域都表现得十分出色。最近，基于输入数据自顶向下关注点（top-down attention ）的机制在图像和自然语言任务中体现了它的价值，然而可微的内存模型比如磁带和堆栈甚至可以让网络从只有一对输入输出的简单算法中学习规则。

（2）神经网络可以学习到惊人有用的表示

当社区仍然急切等待非监督式学习的出现时，深度监督式学习已经在构建可归纳和可解释特征方面体现了令人印象深刻的才能。也就是说，神经网络在被训练预测P(y|x)时学习到的特征通常是可解释的，并且为一些其他相关函数P(z|x)建模非常有用。

举几个例子：

用于分类场景的卷积神经网络的单元通常可以学习在这些场景中特定的物体（比如灯塔），即使它们没有被明确的训练这么做（Zhou et al., 2015）。
图像分类网络中底层的相关系数能够提供一幅图像艺术风格出奇良好的签名，可以对一幅图像使用其他风格来合成新图像（Gatys et al., 2015）。
一种~~递归神经网络~~[文末有更正]被训练用来预测句子中丢失的词语，可以学习到有意义的单词组合，简单的矢量运算可以用来寻找语义类比。比如：
- vking - vman + vwoman ≈ vqueen
- vParis - vFrance + vItaly ≈ vRome
- vWindows - vMicrosoft + vGoogle ≈ vAndroid

我毫不怀疑，在未来几年，神经网络将会运用于更多的任务之中，更深入地整合到行业里去，并将继续有新的超能力让研究者耳目一新。这当然有道理，我也无意贬低深度学习目前和未来的影响；但是关于这些模型智能的乐观情绪令人担忧，让人又想起20世纪60年代人工智能的冬天。

从过去几年的进步可以推断，我们会相信，深度强人工智能的出现指日可待，只需多一些架构技巧，更大的数据集和更强劲的计算能力就能够实现。我认为有两点有力的原因可以增加对此的怀疑。

首先，仅仅依靠单个任务，想要让机器有广泛的智能或者有能力获得这种智能是个坏主意。50年代的下跳棋机器惊艳了研究者，很多人认为这是迈向人类水平推理的一大步，但现在我们意识到在这种游戏中达到人类水平或超人类水平要比达到人类水平的强智能要简单太多了。事实上，即使是最优秀的人，也很容易被简单启发式搜索算法打败。这种算法可能无法促进机器智能的长远目标，尽管它表面上看起来会非常智能，在人工智能的其他领域也是一样，比如80年代的专家系统。在大多数任务中，人类水平或超人类水平的性能不一定是通往接近人类机能的必要垫脚石。

同样的道理，神经网络学习可解释词语组合的能力，并不意味着它是成为人类水平理解世界的正确工具。这些有目的性的统计模型在对世界没有更丰富感知的情况下，单从文本中就可以学习到有意义的关系令人印象深刻，令人吃惊，但这可能会让人谈论任务意想不到的简单而不是模型的能力。比如跳棋机器可以通过树搜索来赢得胜利，许多语义关系可以这么做来从文本数据中学习。这两者都有令人印象深刻的智能行为，但都不是达到真正机器智能的方式。

我想特别说明神经网络的长处，以及与人类智能如何联系。深度学习产生了惊人的判别模型，生成模型和特征提取，但它们的共同之处都是需要非常大的训练数据集。在n和d非常高的情况下，它作为一种强大的通用模式识别工具使用。这可能是这种范式中最佳的工具。

这非常适合大脑能够解决的一种特定类型的问题：找到良好的表示来描述通过感官收到的持续、巨大的数据。在任何感官从环境获取信息前，视觉和听觉系统需要从原始像素和声波中对数据进行折叠，拉伸和扭曲，转换成能够从信号中更好捕获复杂统计规律的数据形式。不管这种能力是从头开始学习还是通过进化而形成的，大脑能够娴熟地解决这个问题——甚至，有最新证据表明大脑发现的表示与神经网络发现的差异并不大。我认为，深度学习可以为许多感知问题提供了不起的起点。

这就是说，这种高n、高d的范式是非常特别的，并不适合用来描述大量的智能行为。人类思维的多面性包括规划完成新目标，从他人的行为中推断他们的目的，学习结构化理论来描述世界规则，发明实验来验证这些理论，仅从一个例子中学习识别新物体种类。它们往往会有一些从少量观测数据中得到的不确定原则推断。对于神经网络取得的所有成就，它们仅仅在不同于以上提到的任务的基本任务中证明了自己的价值。如果表面上看起来它们在所有方面都取得成功，那么是因为它们学习了上百次的例子，而人类并没这么做。

深度学习给我带来了迈向机器智能的一个途径，而且我们现在可以使用许多不同的工具。从拥有大量数据的弱先验中，在高维度下学习良好特征，是一种的、令人兴奋的能力，但我们不应该就认为大部分智能Agent面临的问题都能够用这种方式解决。神经网络中的梯度下降可能可以帮助建立思考机器的组成部分，但它本身是没有思考能力的。

更正：用来生成单词类比的模型实际上是一种对数线性跨词序列模型（log linear skip-gram model），用来区别负样本中临近单词对（Mikolov et al., 2013）。非常感谢fnl的指正。

参考阅读：
递归神经网络不可思议的有效性
 深层神经网络炒作的背后（英）

秒客网

神经网络不可思议的声誉

（1）神经网络可以从弱先验中学习建立许多良好的自然功能模型

（2）神经网络可以学习到惊人有用的表示

相关文章