计算机视觉研究那些事｜CVPR 论文分享会

计算机视觉研究那些事｜CVPR 2020 论文分享会

本文转载自微软学术合作。

在以下链接查看 CVPR 2020 线上论文分享会全程回放：

https://space.bilibili.com/110487933/channel/detail?cid=128252

在以下链接查看本场分享会所有讲者的 PPT 和论文：

https://github.com/peterchenhao/Microsoft-Student-Club/tree/master/2020%20CVPR%20Pre-workshop

5 月 14 日，微软亚洲研究院创研论坛 CVPR 2020 线上论文分享会在线上圆满落幕。来自国内外计算机视觉领域的 19 位优秀代表与大家零距离交流，分享了他们在 CVPR 2020 发表的最新研究成果。

本次活动广受计算机视觉老师、学生、研究人员和工程师的欢迎。千余名观众进入分享会微信群讨论交流；在总计 9 个小时的直播活动中，观看人数的峰值高达 5.3 万，观众们贡献了 2700 余条弹幕，提出了百余个有价值的学术问题。

在开场演讲中，三位嘉宾分别从不同视角阐述了 CVPR 2020 论文分享会举办的初衷。北京大学教授、中国计算机学会计算机视觉专委会主任提出，今天的论文分享会活动，能够让大家尽早体验线上学术交流，并学习如何展示自己的学术成果以及与同行交流，这也是许多国内的研究者相对薄弱的地方。

计算机视觉研究那些事｜CVPR 2020 论文分享会

北京大学教授、中国计算机学会计算机视觉专委会主任查红彬

清华大学教授、清华-微软联合实验室清华方主任温江涛指出，大家除了发表顶尖水平的论文、获得高质量的研究成果，也要思考自己的研究对社会、国家和人类的意义，以及如何将研究成果应用于解决问题。

微软亚洲研究院学术合作总监则分享了三个关键词：

第一，“拥抱改变”，线上的形式没有时间、地点的限制，让这次活动能够请到原来可能请不到的讲者；

第二，“精选”，今年的讲者是精挑细选的，观众的互动提问也将“精选”给分享者回答；

第三，“初心”，CVPR 论文分享会自四年前开始举办就以“分享”为宗旨，希望推动计算机视觉领域的发展，也期待大家在分享交流之后有更多思考。

计算机视觉研究那些事｜CVPR 2020 论文分享会

微软亚洲研究院学术合作总监马歆

回顾过去的一年，计算机视觉在学术界与产业界的关注度持续升温，相关应用及产业化呈现出加速趋势。相信大家一定很好奇，作为顶会主席的大牛如何看待此领域的发展呢？

由此，除了论文干货分享外，本次活动特别准备了彩蛋环节——由重磅嘉宾参与的圆桌讨论。五位担任过视觉领域顶会主席的嘉宾：美国加州大学伯克利分校教授马毅、美国罗彻斯特大学教授罗杰波、Wormpex Al Research 副总裁兼首席科学家华刚、加州大学圣地亚哥分校教授屠卓文和加州大学美熹德分校教授杨明玄，在微软亚洲研究院首席研究员王井东的主持下，就论文的选题与写作、如何看待 arXiv、鲁棒 AI、计算机视觉领域的未来发展等议题进行了精彩探讨。

分享嘉宾

计算机视觉研究那些事｜CVPR 2020 论文分享会

罗杰波

美国罗彻斯特大学教授

CVPR 2012 Program Chair

计算机视觉研究那些事｜CVPR 2020 论文分享会

马毅

加州大学伯克利分校教授

ICCV 2013 Program Chair

ICCV 2015 General Chair

计算机视觉研究那些事｜CVPR 2020 论文分享会

华刚

Wormpex AI Research 副总裁兼首席科学家

CVPR 2019 Program Chair

CVPR 2022 Program Chair

计算机视觉研究那些事｜CVPR 2020 论文分享会

屠卓文

加州大学圣地亚哥分校教授

CVPR 2019 Program Chair

计算机视觉研究那些事｜CVPR 2020 论文分享会

杨明玄

加州大学美熹德分校教授

ICCV 2019 Program Chair

主持人

计算机视觉研究那些事｜CVPR 2020 论文分享会

王井东

微软亚洲研究院首席研究员

圆桌讨论

计算机视觉研究那些事｜CVPR 2020 论文分享会

论文选题与写作：

把自己变成最挑剔的审稿人

王井东：各位有多重身份：投稿人（Author）、审稿人（Reviewer）、领域主席（Area Chair）、程序主席（Program Chair），想请各位从这些身份角度给我们分享一下计算机视觉研究的经验、建议，比如论文选题、论文写作、以及 rebuttal 等等。

罗杰波：这个问题很有意思。我在计算机视觉领域做了差不多 30 年了，看到这个领域有了巨大的进步。这 30 来年，每年都要选一个题，这是一个常规性的挑战。我个人有一个特点就是不凑热闹、不刷榜，我觉得特别是学术界的人，不要以刷榜为目的。选题的话，首先要选一些自己要感兴趣的，第二，有没有一些独特的点去做，而不是说别人做什么你就做什么。

写作的话，有一个普遍规律，你写论文不是写给自己看，也不是写给导师或是学术带头人看，reviewer 才是第一关，需要让他们看得懂、看得出妙处来。你拿到拒信肯定会觉得很沮丧，说审稿人这个没看懂、那个没看懂，但其实很多时候是有（自己）原因的。我经常跟学生说，你得让 reviewer 帮助你，你不把东西讲清楚，人家是不可能给你高分的。

杨明玄：写作当然很重要的，更重要的是要从作者的位置跳出来。你的 advisor 的任务（之一）是做最刁钻的那个 reviewer——他们是为你好，而不是为了跟你作对。老板的经验通常比你多，也看过很多有好有坏的文章，所以他们会帮你把论文修改得尽可能完善，这样送出去的文章就可以避免很多问题。

当然写作需要慢慢地改进。你可以当自己是一个审稿人。看看怎么 review，当你把review、 discussion、rebuttal等这些步骤都走过，相当于你做了次模拟考。还可以把好的文章的结构记录下来。

马毅：关于写作，我个人认为我们的教育可能不太重视这一部分，我是到了后来做研究、写文章、写书的时候才真正开始学习如何写作。我认为做研究分两个阶段，第一个阶段是作为学生时，先要学习做学问的技巧，包括写作的技巧和能力、如何把事情讲清楚甚至 technical presentation（技术报告）……你最早的几篇文章实际上更多是在训练自己的这些技能。过了这个坎儿之后，可以按照自己的兴趣，真正是为了做研究而做研究。两个阶段都非常重要，一个是训练技巧，一个是研究的内容。

我个人认为不要太过于去取悦 reviewer，无论是很伟大的研究者，还是包括我自己在内的很多人，都有过文章被“杀掉”的经历。我想大家的写作应该没有问题，也不缺好的 idea，所以不要把 review 本身看得太重，更重要的是，你自己是不是觉得你的研究问题有价值。

当我做研究生的时候，老板给了我两个关于写作的建议。第一，关于语言，找你最欣赏的人的文章和书，去学习他们怎么讲一件事，怎么开头、承前启后，怎么分配主次和先后，怎么把事情交代清楚。小到语言，大到结构，都可以去学。

技术上的东西罗教授也提到了，你自己要变成自己最挑剔的 reviewer。要把自己训练成最难说服自己的人，做到这一点再说服别人就容易了。

这两点一个是关于写作本身，关于文章和语言，另外一个是技术上如何做到严谨，自身两方面的提高非常非常重要，可能也不是一蹴而就的，要通过一定的经验和经历，在屡败屡战中逐步提高，学会自我反省和换位思考。

华刚：其实刚才三位教授都已经讲得很全了，我就稍微总结一下。

第一点，对论文选题来讲，我觉得罗教授讲得非常好，切莫去跟风，做自己感兴趣的题目。很多同学碰到资深的研究者，会问今年 CVRP 有什么新的方向可以跟一跟，其实这属于本末倒置，你的 research 是你自己的故事，要你自己去书写。

第二点，关于写作的角度，马毅老师的观点很好。我反省了一下自己的求学经历，在小学、初中、高中受到的技术论文写作训练还是缺乏的，我是上硕士研究生之后才第一次真正开始写文章，也没有人教过我，但我自己掌握到一点诀窍：去读一些文章，首先学到它的形式，写文章的第一步是能写完整几个部分，然后能成为一个故事。

技术论文还是相对比较好写的，不需要过于华丽的辞藻。看一些真正写得好的英文书，其实里头用的语言还都是比较平实的，也就是能让一般人读懂的语言。写作应该追求的就是简单写作，把问题和道理讲清楚。

最后我想补充一点，你会在学术共同体中会扮演各种角色：投稿人、审稿人、领域主席、程序主席……作为投稿人有义务要去做个好的 reviewer，当大家得到 review 的请求时，还是要尽量帮助程序主席，在 review deadline 之前把 review 提交过去，这是对学术共同体最大的帮助。

屠卓文：对于大量搞计算机视觉研究的学者来说，更多人扮演的是 author 和 reviewer 的双重角色。写文章还是要”帮人帮己”，这是一个原则，要既能帮助自己，也能帮助 reviewer，甚至帮助其他的同事能够真正理解你的工作。

计算机视觉研究那些事｜CVPR 2020 论文分享会

又爱又恨的 arXiv：

它让双盲名存实亡?

王井东：接下来我们聊一聊 arXiv 的话题。arXiv 上的文章需要引用吗？大家是否会在论文投稿前放到 arXiv 上？arXiv 的存在是否让双盲机制变得名存实亡？

arXiv:一个收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本的网站，由物理学家保罗·金斯巴格于 1991 年建立。arXiv 的存在是造就科学出版业中所谓开放获取运动的因素之一。许多研究者习惯先将其论文上传至 arXiv.org，再提交予专业的学术期刊。

双盲：投稿人不知道审稿人的身份，投稿人不能在所投文章里透露自己的身份。人工智能领域里的会议大多采用双盲评审机制。

单盲：投稿人不知道审稿人的身份，投稿人需要在所投文章里加上自己的身份信息。人工智能领域里的杂志通常采用单盲评审机制。

华刚：总体上，我觉得 arXiv 还是一个非常正面的东西，因为它可以尽快地让大家的工作被整个领域知道，并获得一些评价，一些有影响力的工作会在这个过程中涌现出来。arXiv 带来的问题是大量的文章在上面，但又没有经过 peer review，比较鱼龙混杂，需要研究者有一定的判断力。

至于是否要引用 arXiv 文章，CVPR 和 ICCV 都有比较明确的政策，原则上是可以不 cite 的，大家应该在投稿之前仔细看一下相关政策。

我原本其实不是很愿意把没有 peer review 过的工作发表上去。但是在 2015 年之后，因为跟一些学生合作时，学生想把文章放上去，我觉得也未尝不可。

关于双盲的问题，现在完全是“有法不依，执法不严“。

屠卓文：对于 arXiv，变成单盲暂时比较困难的情况下，是不是考虑设定一定的窗口期，对一段时间内的 arXiv 的文章可以放松一下，如果一篇文章已经上传 arXiv 一年甚至是更长时间，要装作完全不知道也不太科学。有些文章放上面很久，已经基本上形成共识了，我们再去不考虑可能并不是那么合适。

马毅：我的看法跟华刚类似，arXiv 最早的领域是物理和数学，是用来收集论文预印本的，它所对应的 review 的模式不是双盲。既然我们允许发表在 arXiv 上，那么我们的 review process 就不要假装是双盲。

这也给程序主席（Program Chair）或领域主席（Area Chair）带来了很多问题，有人在 review 里会说，这篇文章跟某篇文章的想法很一样，这篇文章到底是否借鉴过 arXiv 文章的想法？这增加了大量不必要的工作量：要看发表时间，但中间往往又有重叠，那怎么去判断？从规则和流程上，我非常赞成 arXiv 鼓励尽快分享信息和知识的初衷，但是它并不适应现在 conference review 的政策，这对组织者、reviewer 甚至作者都带来了很多不确定性以及不必要的困惑，我希望会议组织者或是学术社区真的得好好考虑这个事情。

好多 conference 干脆变成单盲的，直接把 author 的名字放上去就好了，大家也都可以放到自己的网上或者是 arXiv 上面，这样就极大程度上保证了公平，也省去很多的麻烦。

罗杰波：我非常赞同马毅说的，我们既然已经走到这一步了，就不要装模做样地，应该把 CVPR 变成像别的会议一样是单盲的，这样对所有人都公平。很多 reviewer、程序主席或领域主席叫他不要去查，但他忍不住会去查。有的人去查，有的人不去查，难免就会带来审稿过程的不公平，所以我很赞成变成单盲。

计算机视觉研究那些事｜CVPR 2020 论文分享会

深度学习与鲁棒 AI：

计算机视觉如何突破局限？

王井东：深度学习在计算机视觉许多任务中去取得了巨大的成功，但是其严重依赖数据，鲁棒性得不到保证，可解释性差。最近，有不少基于结合深度学习和符号的方法的鲁棒人工智能（robust AI）的研究，各位这种 neuro-symbolic 的路线对 AI 的研究特别是计算机视觉的研究有什么看法？

杨明玄：我没有办法回答你，如果我知道的话我就去做了，重要的是必须要有人去做这件事。

屠卓文：计算机视觉我们现在考虑最多的还是 CNN 算法，当然 RNN、Attention 都在进来,但是实际上视觉和语言还是不一样的。计算机视觉改变一两个像素，改变不了太多，但是在语言里我们改变一个字，它的意思差别会很大。

我觉得计算机视觉慢慢会往更 AI 的角度去考虑，这是一个大的方向。最终的融合是需要的，视觉跟语言在融合，但因为他们先天的差异，并不是简单的视觉和语言的融合，而是更往 generic AI 发展。大家有各自的特点，现在这条路还是在探索阶段。

罗杰波：高层次来讲，视觉有识别问题、描述问题、推理问题，CNN 帮我们解决了大部分识别问题，现在视觉进化到描述问题，下一步应该进化到推理问题。现在很多人想把知识图谱和常识这些东西加进去，尝试解释视觉系统或AI系统如何在知识这个层面上来解决问题。其实一直都有人这样做，就是企图把领域知识（domain knowledge）放进去，和比较底层的识别结合起来去解决高层的问题。我们做得比较多的是在医疗领域，因为医疗有很多的领域知识。

计算机视觉的定义，是从视觉信号里提取描述，没说是只做识别。所以说，计算机视觉的初心就是要去进化到语义的层面，把计算机视觉和自然语言结合起来是不可避免的，也是 AI 最终要进化的方向。视觉和语言的模型和处理手段都比较像，它们有个性也有共性，我们不是要局限于要做 CV 和 NLP，我们是要做 AI。

马毅：鲁棒性确实是一个很大的问题，也跟现在深度模型拟合数据做黑盒，以及依赖数据标签、而并不关心数据内在的描述或者结构有关。从方法论来讲，数据驱动能解决一部分问题，也有很多应用，但一旦涉及到高精度要求的问题就会碰壁。我一直做 3D 视觉，虽然深度学习在识别问题上取得了很大的进展，但 3D 是它最大的软肋，3D 大部分应用对精度要求很高，比如 AR、VR 需要像素级别的准确率，要非常鲁棒，而且也有领域知识，不融合很难达到这样的精度。

这说明，要把计算机视觉真正落地到有关痛痒的应用中，就必须解决模型的鲁棒性和精确性问题，而且是要有保障的。很多是至关重要的，比如无人机、无人车或者医疗，都是涉及生命的。我们的视觉系统能不能上，谁敢上？除了刚才罗教授讲的我们要朝着语义方向发展，要往高水平走，我们在真正的performance guarantee 这方面还有很长的路要走。

计算机视觉研究那些事｜CVPR 2020 论文分享会

展望CV领域未来：

重新定义自己，回归研究初衷

王井东：谢谢各位老师的精彩分享，最后我想请大家每人讲一句话，对计算机视觉这个领域将来的发展，特别是计算机视觉 ICCV、CVPR 这些会议的发展有什么看法？

罗杰波：我就说一个吧，COVID-19 搞得很多会议都是线上来开了，大家开了一顿之后觉得线上也没什么不可以的，省得跑来跑去，也很环保。但我觉得线上交流有致命的东西，我去开 CVPR 或者是各种会议，最 enjoy 的不是 oral session，而是 poster session。你可以去跟作者或者旁边的人评论工作，在这个过程中把事情弄清楚。交流围观的特点是线上交流达不到的华刚：，所以我不认为线上交流会很快地取代实体的会议。但将来会怎么样？可能会是一种 hybrid（混合模式），我不太清楚。

华刚：我非常赞同罗教授的看法，新冠病毒使以后的会议会是一个混合模式，因为很多人还是会面临出行的限制，不能线下参加会议的话，在线会议会提供一个非常好的替代品。

从一个 community 的增长来讲，我们可以看到 ICCV、CVPR 在过去的 10 年中差不多是以指数级的速度在增长。一个 research community 有一个 research core，大家都围绕这个 core 来开展自己的研究，当这么多人把 core 已经挤得差不多的时候，如果 community 要继续增长，势必要去扩展一些其他的方向，就像刚才杰波提到的往更高水平的 AI reasoning 上去发展，或者其他应用型的角度。从 neuro-symbolic 的角度来讲，对这个问题思考最多的可能还是 Gary Marcus 教授，大家有兴趣的话可以看看他写的东西，会有一些启发。

杨明玄：conference 跟 workshop 有不同的功能。现在一些比较资深的人去 workshop 会讲比较多，你遇到不同的人、去不同的 workshop 激发不同的 idea，都有不同的好处。

屠卓文：前面各位同仁说得我都很同意，我期待计算机视觉继续发展，我们继续读更多的文章，看到更多激动人心的发展。

马毅：CVPR 会议的发展已经非常令人满意了。当年我是学生和 young faculty 的时候，视觉会议令我非常激动。一个是小，只有两三百人，第二是 topic 新，都是其他领域不敢碰、不知道怎么做的东西，有的甚至连问题都没有怎么定义清楚。对年轻人都很挑战。

所以，我觉得现在视觉领域可能要重新定义自己。虽然领域发展壮大是一个好事情，有一些东西可以水到渠成。但是从研究问题、研究社群来讲，我们可能要重新找一找，有没有更令人兴奋的事情。人一多从众心理就很严重，现在我们不是在做研究，而是把很多研究主题搞得像是在搞网红的东西了，而不是真正地追求理解、追求突破。我们做研究的初衷，回到最早罗教授讲的，做自己喜欢的、真正做有意义的问题。我希望不光我们个人能做到这一点，作为学术社区的一部分，我们能有这个意识，做一些另辟天地的事情，这是最好的时机。

END

计算机视觉研究那些事｜CVPR 2020 论文分享会