导语:Tomasz Malisiewicz 是 vision.ai 联合创始人。在参加完近期的 2016 ICLR 大会之后,他总结了此次大会和之前的一些研究成果,方便我们明晰人工智能研究的方向与未来。机器之心将文中谈到的所有论文 PDF 进行了整理,可点击「阅读原文」自行下载。
深度学习趋势@ ICLR 2016
由 Yann LeCun 和 Yoshua Bengio 等「深度学习帮派」最年轻成员发起的 ICLR 大会,正迅速变成深度学习领域最重要盛事的有力竞争者。ICLR 比 NIPS 更亲切,比 CVPR(IEEE 国际计算机视觉与模式识别会议)又少些严格的标准,ICLR 的世界是以 arXiv 为基础的,而且发展得非常快。
本文完全是关于 ICLR 2016 的。我将在本文中强调一些用于构建更深度和更强大的神经网络的新策略、大型网络压缩得更小的想法、以及用于开发「深度学习计算器(deep learning calculators)」的技术。许多新的人工智能问题正遭受着最新的深度学习技术浪潮的严重冲击;而从计算机视觉的角度上看,深度卷积神经网络毫无疑问正是当今用于处理感知数据的「主算法(master algorithm)」。
天堂里的深度聚会?ICLR 2016 在波多黎各举办
无论你是在机器人、增强现实领域开展工作,还是在解决与计算机视觉相关的问题,下面的 ICLR 研究趋势总结将能让你一览当今各种深度学习技术之巅的可能模样。你可以考虑将本文作为阅读小组交流会的起点。
第一部分:ICLR vs. CVPR
第二部分:ICLR 2016 深度学习趋势
第三部分:深度学习,你往何处去?
第一部分:ICLR vs CVPR
上个月举办的 ICLR 2016(通常发音为「eye-clear」)其实可以更准确地称为「深度学习国际大会」。 ICLR 2016 于 5 月 2-4日在可爱的波多黎各举办。今年是本会议的第四届——第一届举办于 2013 年,那时这还是一个非常小的会议,甚至不得不与另一个会议选在了同一地点。因为其发起人正是所谓的「深度学习黑手党」,所以,与会的所有人都必然正在学习和/或应用深度学习方法,这毫不奇怪。卷积神经网络(在图像识别任务中占主导地位)已无处不在,位居二线的则是 LSTM 和其它循环神经网络(用于对序列建模和构建「深度学习计算器」)。我个人的大部分研究大会经历来自 CVPR,而且自 2004 年以来我就一直是 CVPR 的参会者。和 ICLR 相比,CVPR 给人几分更冰冷、更实证的感觉。为了描述 ICLR 和 CVPR 之间的不同,Yan LeCun 在 Facebook 上引用 Raquel Urtasun 的话给出了最好的说明:
CVPR:深度网络能为我做什么?
ICLR:我能为深度网络做什么?
ICLR 2016 大会是我第一个真正感到紧密交织着「让我们分享知识」活动的正式会议。在三天的主会议时间里,有许多夜晚的网络活动,而且没有专题研讨会。ICLR 总共有大约 500 名参会者,规模大约是 CVPR 的四分之一。事实上,在哥伦比亚特区举办的 CVPR 2004 是我参加的第一个会议,海报包装过的会议、多种会议和足够让会议持续一周的研讨会,已经让 CVPR 臭名昭著。在 CVPR 结束时,你会有一种研究后遗症的感觉,需要几天才能恢复。我更喜欢 ICLR 的规模和时长。
和许多其它深度利用机器学习技术的*会议一样,CVPR 和 NIPS 已经发展出了庞大的规模,这些大型会议的论文接受率已经接近 20%。要说 ICLR 的研究论文和 CVPR 论文相比是不成熟的,并不一定是正确的,但 ICLR 的实验验证类论文的数量使其成为了与 CVPR 不同的野兽。CVPR 主要关注的是产出「当下最先进的」论文,这基本上意味着你必须在一个基准之上运行你的算法,并击败上一赛季的领先技术。ICLR 则主要关注强调深度卷积神经网络的分析和设计中新的和有前途的技术、该种模型的初始化方案和用于从原始数据中学习该种模型的训练算法。
深度学习就是学习表征
2013 年,Yann LeCun 和 Yosha Bengio 发起这个会议,是因为存在这种需求—— 在一个新的、小的、高质量的场所,集中讨论深度方法。为什么这个会议被称为「学习表征(Learning Representations)」呢?因为以端到端的方式训练的典型深度神经网络,事实上学习的是这样的中间表征(intermediate representations)。传统的浅层方法是以可训练分类器之上、人工处理过的特征为基础;但是,深度方法学习的是一个层级网络,它不仅学习那些高度渴望的特征,也学习分类器。所以,当模糊特征和分类器之间的界限时,你能得到什么?你得到了表征学习(representation learning)。而深度学习也就是这么一回事。
ICLR 发行模式:只能选 arXiv
在 ICLR,论文直接发布在 arXiv 上。如果你对 arXiv 自古腾堡计划以来已成为了唯一最棒的科研论文发行模式还存在任何怀疑,就让 ICLR 的成功也成为让你开悟的另一个数据点吧。ICLR 基本上已经绕过了老式的发行模式——Elsevier 这样的第三方说:「你可以通过我们发表论文,我们会将我们的 logo 放在论文上,然后向每一个想要阅读每篇论文的普通人收取 30 美元费用。」抱歉,Elsevier,科研不是这么搞的。大部分研究论文根本不值得花 30 美元一读。研究的整体才能提供真正的价值,其中的一篇论文不过只是一扇门而已。你看,Elsevier,如果你真的能带给世界一个额外的科研论文搜索引擎,然后有能力以 30 美元/月的订阅费提供印刷在高质量纸张上的 10-20 篇论文,那你就为研究者提供了一个杀手级服务,我也愿意支持这样的订阅。所以,理所当然地,ICLR 说去你的,我们将使用 arXiv 作为传播我们的思想的方法。未来所有的研究会议都应该使用 arViv 来传播论文。任何人都可以下载这些论文、查看何时张贴了新的修正版本、而且他们也能打印他们自己的实物副本。但要注意:深度学习发展迅速,你必须每周刷新或访问 arXiv,否则你就会被加拿大一些研究生教育了。
ICLR 与会者
谷歌 DeepMind 和 Facebook 的 FAIR(Facebook 人工智能实验室)占到了与会者的大部分。还有来自 Googleplex(谷歌总部)、Twitter、NVIDIA 和 Clarifai 与 Magic Leap 等创业公司的研究者。总的来说,这是一个非常年轻且充满活力的群体,其中 28-35 岁之间超聪明的人代表了这个群体的大多数。
第二部分:深度学习主题
将结构纳入深度学习
多伦多大学的 Raquel Urtasun 发表了演讲,探讨了将结构纳入深度学习的话题。
许多关于结构学习和图形模型的观点,都在她的演讲中。论文引人注目之处在于,Raquel 对计算机视觉的关注。另外,也简单介绍了部分近期研究情况 ,取材自她的 CVPR 2016 文章。
在去年的 CVPR 2015 会议上, Raquel 有过精彩演讲 3D Indoor Understanding Tutorial
Raquel 的强项之一,纯熟运用几何学的能力,而且她的研究同时涵盖了基于学习的方法以及多视角几何。我强烈建议大家密切关注她即将发表的研究思想。以下,是两篇 Raquel 领导团队撰写的前沿论文:第一篇关注的是利用 MRF中的分支界限法进行推论(branch and bound inference),根据球赛广播定位球场位置。
Raquel's new work. Soccer Field Localization from Single Image. Homayounfar et al, 2016.
2016 年论文:Soccer Field Localization from a Single Image。作者: Namdar Homayounfar, Sanja Fidler, Raquel Urtasun。
Raquel 团队即将发布的第二篇论文讨论的是,秉承 FlowNet 的精神,针对Dense Optical Flow 使用深度学习,我在去年的一篇博文中( ICCV 2015 hottest papers )对此有讨论。这项技术建立在这一观察基础之上:该场景通常由静态背景,以及数量相对较少的交通参与者组成,这些交通参与者严格地在三维模式下移动。密集光流技术(dense optical flow technique)被应用到了自动化驾驶中。
2016 CVPR 论文:Deep Semantic Matching for Optical Flow。 作者:Min Bai, Wenjie Luo, Kaustav Kundu, Raquel Urtasun.
增强学习
Sergey Levine 曾进行了一场精彩的主题演讲,探讨了深度强化学习及其在机器人中的应用。这方面工作似乎还得寄希望于未来,主会议中几乎没有出现与机器人相关的研究。这似乎不足为奇,因为组装机器人手臂的开销并不低,而且大多数研究生研究实验室也没有这样的装配机器。在 ICLR 会议中,多数的论文都是描述一些纯软件或数学理论,如果要开始研究典型的深度学习体系,一个 GPU 就足够了。
谷歌内部,一组机器人手臂正在一起学习如何抓取东西
接下来是一个有趣的论文,从中可以一窥牛人 Alex Krizhevsky 当前的研究内容。他就是2012年业界传奇之文 AlexNet 的作者,该文曾轰动了目标识别(object recognition)界。Alex 的新作与机器人的深度学习有关,目前针对谷歌机器人。
论文:Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection。作者:Sergey Levine, Peter Pastor, Alex Krizhevsky, Deirdre Quillen.
压缩网络
模型压缩:会是神经网络的 WinZip 吗?
如今的深度学习硬件之王或许当属 NVIDIA ,但我仍隐约觉得,还有高手正深藏不露。请注意,一旦人们意识到拥有比特币的经济价值,基于 GPU 的比特币挖掘就已经开始没落。为运行底层的比特币计算,比特币的挖掘技术很快就过渡到了更加专业化的 FPGA 硬件,而且深度学习的 FPGA 也指日可待。NVIDIA 会坐守第一的宝座吗?我认为, NVIDIA 的未来将面对关键的抉择,NVIDIA 可以选择继续生产硬件,继续满足游戏爱好者和机器学习研究人员,也可以更加专业化。非常多优秀的企业,如 Nervana Systems, Movidius,以及业界大牛谷歌等都不想再依赖 GPU ,因其功耗大且易发热,特别是要扩展已经训练完成的深度学习模型的时候更是如此。可以看一下 Movidius 的Fathom ,或谷歌的 TPU。
然而,人们已经看到了深度网络的经济价值,但是,深度网络的「软件」这一边所期望的,并不是神经网络的 FPGA 硬件。压缩神经网络的软件版本是个非常热门的话题。基本上,人们都会想有一个强大的神经网络,然后将其压缩成更小、更有效的模型。将权重二分化是其中的一种方法。而且,通过模拟更大型网络来训练小网络的「Student-Teacher」技术也已经有了。不出意外,明年我们就将见证,仅仅 1 兆大的网络就可以以牛津的 VGGNet 的同等水准,执行 ImageNet 的 1000-way 分类任务。
关于 ICLR 2016 会议所收录论文 Deep Compression (深度压缩) 的总结,作者为 Han 等人。
今年的 ICLR 中出现了大量的关于 Compression (压缩)的论文,其中三篇如下:
2016 ICLR 论文:Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding。作者:Song Han, Huizi Mao, and Bill Dally。 该论文荣获 Best Paper Award (最佳论文奖)。
2016 ICLR 论文:Neural Networks with Few Multiplications。作者:Zhouhan Lin, Matthieu Courbariaux, Roland Memisevic, Yoshua Bengio。
2016 ICLR 论文:8-Bit Approximations for Parallelism in Deep Learning。作者:Tim Dettmers。
无监督学习
Philip Isola 展示了一篇论文,非常有 Efrosian 的风格(Efrosian 为 Efros 星球上的人,该星球为「星际迷航」科幻系列中的星际联邦中 ,Flarset 系统的第四个行星)。内容为,利用在无监督学习中基于局部定义的 Siamese Networks ,学习局部相似性函数。这种局部与局部之间的相似性函数,旨在创建基于图像定义的局部相似图,可用该图发现物体的大小。这让我想起了由 Alyosha Efros 和 MIT 团队发起的对象发现( Object Discovery)的系列研究,其中的基本思想就是,在学习相似性函数时,避免使用类别标签。
Isola 等人: A Siamese network has shared weights and can be used for learning embeddings or "similarity functions"
2016 ICLR 论文:Learning visual groups from co-occurrences in space and time。作者:Phillip Isola, Daniel Zoran, Dilip Krishnan, Edward H. Adelson。
Isola 等人:Visual groupings applied to image patches, frames of a video, and a large scene dataset
初始化网络,及 BatchNorm 为什么重要
建设一个神经网络并运行这个网络,并非易事。ICLR 2016 中有几篇论文提出了几种初始化网络的新方法。但实际上,深度网络初始化问题已经 「基本解决」。因为在研究者将 BatchNorm(Batch Normalization 算法)引入神经网络后,初始化问题似乎已经成为一种真正的、更加科学的、而非只是具有艺术价值的研究领域。「BatchNorm 就像是深度学习的黄油——任何时候挤一点,都会使食物更美味。」但也并非全然如此!
早期研究中,研究者为了使误差反向传播算法(back propagation)能够进行学习,在构建深度神经网络的权重初始值时,面临着重重困难。其实在90年代,神经网络之所以在项目研究时期就失败,其中部分原因恰恰就是:只有一小部分*研究者知道怎样优化网络,让网络能够自动地从数据中学习,但是,其他的研究者并不知道任何关于初始化的正确方法。打个比方:90 年代神经网络中的「黑魔法」太过强大。在某一时刻,人们渐渐选择使用凸方法和 Kernel 向量机,而凸优化设置中使用这些工具,是不需要进行初始化的。于是,几乎有 10 年的时间(1995 到 2005),研究者都对深度的方法避而远之。2006 年,深度结构得到突破,Hinton 在发明神奇的玻尔兹曼机( Boltzmann Machines)和无监督预训练(unsupervised pretraining)时,再度使用了 Deep Architectures (深度结构)。但是无监督预训练没有持续太长时间,因为研究者有了 GPU。 他们认识到,一旦数据集足够大(比如世界上图像识别最大的数据库 ImageNet 中有大概 2 百万张图像),那么简单的基于判别学习的 back-propagation 就可以运行。当转向 ImageNet 数据集的人达到 100 多个的时候,随机权重初始化策略、以及智能调节的学习率,便很快便开始在研究者之间流传开来。人们开始分享代码,奇迹随之发生。
但是,为新的问题设计新的神经网络仍然存在困难。设置多个学习速率和随机初始化值的时候,人们不知道怎样才是最优的方式。但研究者们必须继续坚持研究,谷歌的一些程序员发现,问题的关键是,初始化较差的网络很难在网络间进行信息的流通。举个例子,比如第 N 层在某一范围内产生激活状态,而随后的其他层则却在等待另一个数量级的信息。因此,谷歌的 Szegedy 和 Ioffe 提出了一个简单的技巧,即在数据通过网络的时候,将数据流进行漂白。这个方法命名为 「BatchNorm」,即,在深度网络中的每个卷积层或全连接层后都要使用归一化层。这种归一化层通过减去一个平均值,除以一个标准偏差值,可以将数据漂白,然后就可以在信息流通过网络的时候输出近似为高斯数的数值,事半而功倍。在所有的机器学习方法中,漂白数据的方式都非常流行,深度学习研究者花了这么长时间,重新在深度网络的研究历史中发掘出这个方法,似乎有些大费周折。
2016 ICLR 论文:Data-dependent Initializations of Convolutional Neural Networks。作者:Philipp Krähenbühl, Carl Doersch, Jeff Donahue, Trevor Darrell。其中,Carl Doersch 是卡内基梅隆大学博士研究员,被 DeepMind 招致麾下,DeepMind 或将再次有所作为。
反向传播的把戏
向梯度中注入噪声,看起来似乎是可行的。这让我想起了研究生门在修复梯度计算的漏洞中常见的困境——而你的学习算法甚至做的更糟。当你在白板上计算导数时,你可能会犯下一个愚蠢的错误,如搞乱了平衡两个项的系数,或忘记了某个位置的相加项或相乘项。但是,有很大的可能你的「有漏洞的梯度」与真实「梯度」实际上是相关的。而且在很多情况下,一个与真实梯度相关的数量比真实梯度更好。这是尚未在科研界得到妥善解决的规则化(regularization)的一种特定形式。哪些类型的「有漏洞的梯度」实际上对学习有利?是否存在一个领域,其中「有漏洞的梯度」在计算成本上比「真实梯度」更低?这些「FastGrad(快速梯度)」方法能够加速训练深度网络,至少在前几个时期能做到。也许到 ICLR 2017 时将会有人决定走这条研究之路。
2016 ICLR 论文:Adding Gradient Noise Improves Learning for Very Deep Networks。作者:Arvind Neelakantan, Luke Vilnis, Quoc V. Le, Ilya Sutskever, Lukasz Kaiser, Karol Kurach, James Martens。
2016 ICLR 论文:Robust Convolutional Neural Networks under Adversarial Noise。作者:Jonghoon Jin, Aysegul Dundar, Eugenio Culurciello。
注意:聚焦计算
基于注意(attention)的方法是指用相比于「无趣的」区域,将更多精力用在处理「有趣的」区域上。并非所有像素都是平等的,人类的注意力能很快集中到静态图像上有趣的点上。ICLR 2016 最有趣的关于「注意」的论文是来自蒙特利尔大学 Aaron Courville 研究团队的动态容量网络(Dynamic Capacity Networks)论文。另一位与「深度学习黑手党」有紧密联系的关键研究者 Hugo Larochelle 现在是 Twitter 的研究科学家。
2016 ICLR 论文:Dynamic Capacity Networks。作者:Amjad Almahairi, Nicolas Ballas, Tim Cooijmans, Yin Zheng, Hugo Larochelle, Aaron Courville。
ResNet 技巧:超深度超有趣
我们可以看到前几个月深度学习社区中出现的新的「ResNet」技巧方面已经有了一些新论文。ResNet 是指「残差网络(Residual Net)」,这种方法能为我们创建计算层的深度堆栈提供一种规则。因为每一个残差层基本上要么学习让原始数据通过,要么学习以某种非线性转换的结合形式混合原始数据,所以这些层中的信息流动会顺畅得多。这种由残差模块带来的「流量控制」能让你构建出非常深度的 VGG 式的网络。
2016 ICLR 论文:Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning。作者: Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke。
2016 ICLR 论文:Resnet in Resnet: Generalizing Residual Architectures 。作者:Sasha Targ, Diogo Almeida, Kevin Lyman。
深度度量学习(Deep Metric Learning)和学习子类
Facebook 的 Manohar Paluri 发表了一篇很棒的论文,其关注了一种思考深度度量学习的新方法。该论文标题为「带有适应性密度区分的度量学习」,并让我想起了在卡内基梅隆大学的我自己的研究。他们的关键想法可以提炼成「反类(anti-category)」的观点。基本上,你可以将通过直觉获得知识构建于你的算法中,如:并非 C1 类的所有元素都应该坍缩成一个单一的独特表征。由于一个类别中的视觉多样性,你只能假设 C 类中的一个元素 X 与其它 C 子类中元素类似,而且并非所有元素都是如此。在他们的论文中,他们假设 C 类中所有元素都属于一个隐子类的集合,而且 EM 样的学习在寻找子类分配和更新距离度量之间交替。在我研读博士期间,我们将这个想法推进得更远,并构建了模范支持向量机,它带有单个积极「模范(exemplar)」元素的最小可能子类。
Manohar 作为 FAIR 团队的一员开启了他的研究,该团队更专注于研发类的工作,但度量学习是非常以产品为中心的,而且该论文似乎也是「为产品做好了准备」的技术的极佳示例。我想,会有数十种 Facebook 的产品可以从这样的数据驱动的自适应深度距离度量中受益。
2016 ICLR 论文:Metric Learning with Adaptive Density Discrimination。作者:Oren Rippel, Manohar Paluri, Piotr Dollar, Lubomir Bourdev。
深度学习计算器
LSTM、深度神经图灵机和我所说的「深度学习计算器」在本次大会上大放异彩。一些人说:“只是因为你能使用深度学习构建计算器,也不意味着你应该这么做。”而对一些人而言,深度学习是圣杯+泰坦之锤,任何可以用词语描述的东西都应该能用深度学习组件构建出来。尽管如此,这是深度图灵机的一个激动人心的时刻。
获得「最佳论文奖」的论文是 Scott Reed 和 Nando de Freitas 的 Neural Programmer-Interpreters。其中以一个有趣的方法将深度学习和计算理论进行了融合。如果你想知道使用深度学习来学习快速排序会怎样,那就看看他们的论文吧。而且 Scott Reed 似乎将要加入谷歌 DeepMind 了,所以你可以看出他们正在押注哪些方面。
2016 ICLR 论文:Neural Programmer-Interpreters。作者:Scott Reed, Nando de Freitas。
另一篇有趣的论文来自 OpenAI 的人:「神经随机存取机」,对于喜爱深度学习计算器的人来说,这是另一篇「粉丝最爱」。
2016 ICLR 论文:Neural Random-Access Machines。作者:Karol Kurach, Marcin Andrychowicz, Ilya Sutskever。
计算机视觉应用
边界检测是一类常见的计算机视觉任务,其目标是预测物体之间的边界。计算机视觉研究者已经使用图像金字塔(或称多级处理)相当一段时间了。查看以下汇集了多个空间分辨率的信息的深度边界的论文。
2016 ICLR 论文:Pushing the Boundaries of Boundary Detection using Deep Learning。作者:Iasonas Kokkinos。
RNN 的一个很棒的应用是,将图像「展开」成许多层。在对象识别的情况下,其目标是将图像分解成其组成部分。下面的示意图给出了最好的解释,但如果你想知道应该在你的计算机视觉设计的哪个位置使用 RNN,请查看他们的论文。
2016 ICLR 论文:Learning to decompose for object detection and instance segmentation。作者:Eunbyung Park, Alexander C. Berg。
扩张卷积(Dilated convolutions)是一个「技巧」,让你可以增加你的网络的感知野(receptive field)大小,场景分割似乎是这种扩张的的最好应用领域之一。
2016 ICLR 论文:Multi-Scale Context Aggregation by Dilated Convolutions。作者:Fisher Yu, Vladlen Koltun。
可视化网络
两篇最好的「可视化」论文是 Jason Yosinski(现正加入 Geometric Intelligence 公司)的「神经网络学习的内容是一样的吗?」和 Andrej Karpathy(现正加入 OpenAI)的「循环网络的可视化和理解」。Yosinski 研究的是,当你使用不同的初始化来学习两个不同的网络时会发生什么。网络学习的是一样的事物吗?我记得我与 Jason 进行过一个很棒的讨论,是关于网络 A 的神经元能否以网络 B 的线性结合的形式表达,而 Jason 的可视化很好地解释了这个问题。Andrej 的递归网络可视化在展示/博客的形式下接纳度更高。
2016 ICLR 论文:Convergent Learning: Do different neural networks learn the same representations?作者:Yixuan Li, Jason Yosinski, Jeff Clune, Hod Lipson, John Hopcroft。
2016 ICLR 论文:Visualizing and Understanding Recurrent Networks。作者:Andrej Karpathy, Justin Johnson, Li Fei-Fei。
深度卷积网络真的需要那么深吗(甚至不需要是卷积的)?
「Do Nets have to be Deep?」插图
这是 Rich Caruana 的论文中提出的关键问题(Caruana 博士现在在微软,但是我记得十一年前我在康奈尔大学见过他)。如果你坐下来认真思考一会,你会意识到他们的论文中的两个结果是十分有意义的。第一,卷积层有一个非常特殊的特性:在被用于图片时,它们的表现要比只使用全连接层要好得多——图像的二维结构和过滤器的二维结构,使得卷积层能够从参数中获得大量结果。第二,我们现在拥有一种「师徒型」训练算法,你能够让一个更浅层的网络「模仿」另一个网络在处理大数据集时的反应。通过这种方式训练的浅层网络,其学习效果更好。事实上,如果你将「师傅」网络的训练样本直接用于更浅层的网络,结果会非常差。这样看来,你能从「数据到百万深度」、「百万深度到迷你深度」,但你不能直接从「数据到迷你深度」。
2016 ICLR 论文:Do Deep Convolutional Nets Really Need to be Deep (Or Even Convolutional)? 作者:Gregor Urban, Krzysztof J. Geras, Samira Ebrahimi Kahou, Ozlem Aslan, Shengjie Wang, Rich Caruana, Abdelrahman Mohamed, Matthai Philipose, Matt Richardson。
「百万深度到迷你深度」和「迷你深度到百万深度」前沿的另一个有趣的想法
2016 ICLR 论文:Net2Net: Accelerating Learning via Knowledge Transfer。作者: Tianqi Chen, Ian Goodfellow, Jonathon Shlens。
使用 LSTM 网络进行语言建模
在处理大量文本上,还有一个值得关注的方法。Chris Dyer(他可能也要加入 DeepMind 了)在一次演讲中提出了一个问题:「模型结构需要反映语言学上的结构吗?」在比较词向量和字符向量时,他指出,对于不同的语言,使用不同方法可能会更好。对于句法复杂的语言来说,字符向量编码要比词向量的编码做的更好。
2015 年论文:Improved Transition-Based Parsing by Modeling Characters instead of Words with LSTMs。作者:Miguel Ballesteros, Chris Dyer, Noah A. Smith。
同样十分有趣的展示,是 Ivan Vendrov, Ryan Kiros, Sanja Fidler, Raquel Urtasun 等人的「图像和语言的序列向量」。它们展示了一种直观的 y-坐标系统的方式来描述概念。我很喜欢这些坐标系统的类比,它们提供了思考经典问题的新角度。
2016 ICLR 论文:Order-Embeddings of Images and Language。作者:Ivan Vendrov, Ryan Kiros, Sanja Fidler, Raquel Urtasun。
无需训练的方法:卷积神经网络在图片匹配上的应用
这些技术使用 ImageNet 分类任务训练过的深度神经网络激活图做其他重要的计算机视觉任务,它们能巧妙地匹配图像区域。在下面这篇论文中,它们被用于智能图像检索。
2016 ICLR 论文:Particular object retrieval with integral max-pooling of CNN activation。作者:Giorgos Tolias, Ronan Sicre, Hervé Jégou。
这让我想起了一篇 RSS 2015 年的论文,它使用 ConvNets 来匹配地标,以完成同时定位与地图创建(SLAM)任务。
2015 RSS 论文:Place Recognition with ConvNet Landmarks: Viewpoint-Robust, Condition-Robust, Training-Free。作者:Niko Sunderhauf, Sareh Shirazi, Adam Jacobson, Feras Dayoub, Edward Pepperell, Ben Upcroft, and Michael Milford。
高斯过程和自动编码器
高斯过程(Gaussian Processes)曾经在 NIPS 中十分流行,有时也会被应用在图像问题上,但在深度学习时代却被「遗忘」了。在 pertaining 还是训练深度神经网络的唯一方法时,可变化自动编码器(VAEs)也曾是十分流行的。然而,随着对抗网络这类新技术的发展,人们愈加频繁地使用自动编码器。因为在内心深处,我们仍旧「盼望」着能有像编码器/解码器这样简单的网络,来赋予我们无监督学习的力量。人们对 VAE 进行了许多尝试,但是今天它已经不是那么主流了。
几何方法
总体而言,与 SfM/SLAM 这一块相关的视觉问题内容在 ICLR 2016 上很少出现,而这类论文在 CVPR 十分普遍。同时,我很惊讶在 ICLR 上出现的机器人相关内容也不多。需要注意的是,与现在数据驱动的深度学习相比,SfM/SLAM 使用的方法更多是基于多视角几何与线性代数。
或许一个更好的机器人与深度学习会场,是今年六月的名为「Are the Sceptics Right? Limits and Potentials of Deep Learning in Robotics」的研讨会。这个研讨会是 RSS 2016 的一部分,RSS 是世界领先的机器人会议。
第三部分:深度学习,你往何处去?
神经网络压缩将会成为一个大话题——因为现实应用要求我们这么做。算法研究人员可不会等到 TPU 和 VPU 成为主流的时候才这么做。能够解读图像的深度网络,将存在于每一个内置照相机的设备中。事实上,到 2020 年我看不出照相机不能够生成高质量的 RGB 图片和神经网络向量。新的图片格式甚至会有类似于「深度分析向量」与图片同时保存。而这一定会成为一个神经网络,不论以什么结构。
OpenAI 在 ICLR 2016 上的表现值得关注,同时我感到每一周都有一个博士加入 OpenAI;谷歌 DeepMind 和 Facebook 的 FAIR 拥有大量的论文;谷歌分秒必争地通过 TensorFlow 完成了深度学习的转型;微软已不是研究界的王者;创业公司们也粉墨登场——Clarifai 甚至在现场分发免费凉鞋。拥有扎实的深度学习技术的毕业生们仍旧炙手可热,但是当下一代人工智能创业公司席卷而来的时候,只有那些愿意将他们的学术能力转化成市场产品的人,又名「深度企业家」,能够拿到真金白银。
从研究上来说,arXiv 是一个十分重要的生产助力器。希望现在的你已经知道要把深度学习研究的赌注下在哪里,从大量深度解析中得到你喜欢的研究题目的灵感,并且对顶尖研究人员的前进方向已经心中有数。我十分建议你关掉电脑,在白板上和你的同事好好探讨一下深度学习的话题。抓个朋友来,教他一些有趣的把戏。
我们 CVPR 2016 见。在那之前,不要停止学习哦。
本文选自:computervisionblog,作者:Tomasz Malisiewicz ;机器之心编译