【论文审阅】ICLR论文及其审阅流程中评委意见和作者反馈的赏析

时间:2024-05-23 16:44:36

【论文审阅】ICLR2018论文及其审阅流程中评委意见和作者反馈的赏析


当我回头过来阅读ICLR2018大会的论文及其审阅流程时,发现这是很有价值的,其中不乏Bengio这种业内*大牛投稿被拒的评审意见,而一些很好的idea也许却能让你入围。现在就一起回味一下这些信息量巨大的精彩审阅吧!

ICLR2018机器学习会议现场,众人扎堆地讲解自己的论文,或者去听感兴趣的论文。

【论文审阅】ICLR2018论文及其审阅流程中评委意见和作者反馈的赏析


Learning to Represent Programs with Graphs

  • 录取结果:这篇paper被入选为oral paper。
  • 这篇论文讲了啥:计算机程序的结构以表示为图,神经网络可以学习并自动找bug。
  • 作者来自哪:微软、斯坦福大学。
评委意见:

作者和本文的匿名评论员之间存在一些争论。 评论员的感觉是和现有的工作(主要来自PL社区)没有适当的比较,事实上,之前的也许比本文方法表现更好。 作者指出,他们的评估难以直接比较,但他们不同意评估。 他们修改了他们的paper以适应评论员的一些顾虑; 并承诺将来与其他工作进行更全面的比较。
本文优点:
1.写得很好;
2.良好的ablation study;
3.良好的评估,包括真实软件项目中发现的真实错误;
4.实用于现实世界的任务;
本文缺点:
1.与现有的PL文献或该社区的现有数据集相比,可能不太好;
2.架构(GGNN)不是一种新颖的贡献;
最终决定:接受(口头报告)

来看看作者反馈:

作者反馈:

评论:我们更新了我们的提交内容,以解决此处提出的一些意见,并包括截止日期后获得的最新结果:

  • 我们已经提到了Bichsel等人的paper(CCS 2016)并改进了Related Work部分的措辞,以更好地描述他们的方法。
  • 现在,初始节点表示由线性层计算得到节点标签嵌入和类型表示的串联作为输入。在我们的实验中,我们发现这有助于泛化性能。
  • 我们注意到并解决了VarMisuse任务上本地模型(LOC)实现的问题,并更新了Tab.1以反映结果。 它们现在好多了,但是模型的表现仍比其他所有模型都差。
  • 我们在VarMisuse任务上更新了GGNN模型的实验结果,以反映小模型变化和更好地调整超参数,主要是改进GGNN对未知项目的泛化性(从精度68.6%提升至77.9%).我们没有更新实验中所有模型的结果(表2),但会在第二次提交中更新。
  • 我们在附录中添加了实验的ROC和PR曲线图。评委要求的关键数字是,对于广泛接受的10%的假阳性率,我们的模型实现了73%的真阳性率。
  • 我们更新了论文,简要讨论了Roslyn中发现的另外3个错误,一个有可能引起Visual Studio崩溃(参见https://github.com/dotnet/roslyn/pull/23437,请注意这个GitHub问题没有对论文作者实名化)。

Learning to Compute Word Embeddings On the Fly

  • 录取结果:被拒了。
  • 这篇论文讲了啥:我们提出了一种通过从定义来嵌入计算从而可以处理稀疏单词的方法。
  • 作者来自哪:Google、蒙特利尔大学。
评委意见:

决定:拒绝
评论:论文的优缺点可归纳如下:
优点:

  • 将多个信息源组合在一起的方法是有效的。
  • 实验评估无可挑剔。

缺点:

  • 该方法是一个相对较小的贡献,将多个现有方法结合在一起以改进word embedding。这也使得模型至少与所有组成模型一样复杂,这可能是实际适用性的障碍。
  • 作为一个辅助评论,标题和强调计算嵌入“ON THE FLY”有点令人费解。这肯定不是第一篇能够为未知单词计算单词嵌入的论文(例如,所有引用的基于字符或基于字典的方法的work也可以这样做)。如果重点是及时计算字嵌入而不是提前,那么我也期望评估速度或内存要求这样做的好处。也许这篇论文的一个更好的标题是“将多个信息源整合到单词嵌入的训练中”,或者也许是一个更性感的解释。

总体而言,该方法似乎很可靠,但这个idea早被其他人先想到了。

来看看作者反馈:

作者反馈:

我们非常感谢审稿人的全面和深思熟虑的评论!根据他们的反馈意见,我们上传了该论文的修订版,并进行了一些小改动。
在其余对评价的反驳中,我们解决了审稿人提出的一些问题。 最后,我们重申了这篇论文的优势。
。。。 。。。(逐一怼了每个评委的差评)
最后,我们想重申我们支持接受这项工作的关键论点。 本文提出了一种概念上简单但新颖的方法来解决自然语言处理中OOV词的一般问题。 我们在QA,NLI和语言建模方面提供的实验结果让读者了解这种方法是否适用于他们感兴趣的领域。 在合理的假设下,NLI识别是所考虑的任务中最具语义要求的任务,所提出的方法的相关性将随着该领域的进展将允许使用更难的数据集和任务而增长。 最后,我们认为我们的方法对于技术领域的从业人员尤其有用,例如法律领域的文章和生物领域的文章,这里面的词义通常需要提供准确的定义。

然并卵,还是被拒了… …


The Reactor: A fast and sample-efficient Actor-Critic agent for Reinforcement Learning

  • 录取结果:7分,录取。
  • 这篇论文讲了啥:强化学习架构Reactor有多种算法和架构方面的贡献,样本利用效率高于优先级Dueling DQN,同时提供比A3C有更好的运行性能。
  • 作者来自哪:剑桥大学。
评委意见:

评分:7,很好的paper,录用。
回顾:本文通过将深度强化学习算法和体系结构的各种改进结合到一个模型中,提出了一种称为Reactor的强化学习体系结构。本文的主要贡献是在策略梯度更新,分配RL的多步骤非策略更新以及转换序列的优先级经验重放方面实现更好的偏差 - 方差权衡。不同模块集成良好,实证结果非常有前途。实验(尽管仅限于Atari)很好地进行,并且对样品效率和培训时间进行评估。

优点:
1.最近几项改进深度RL的良好整合,以及一些改进训练的新技巧。
2.就最终得分和实时训练速度而言,57场Atari比赛的佐证结果令人印象深刻。

缺点:
1.Reactor的样本效率仍然低于Rainbow,在200M帧后得分显著降低。虽然Reactor的运行速度要快得多,但它确实使用了更多的并行计算,因此在时间上与Rainbow比较并不完全公平。 Rainbow的分布式版本在这方面会表现得更好吗?
2.经验比较仅限于Atari域。如果在Mujoco / Vizdoom / Deepmind Lab等其他环境中也能显示结果,那么本文的结论将会更加强大。
3.由于本文引入了一些新的想法,如优先顺序record,如果对这些单独方案的影响进行更详细的分析,即使在比Reactor更简单的模型中,也会有所帮助。例如,可以研究优先序列重放在多步DQN或复发DQN等模型中的影响。这将有助于我们以更全面的方式理解每个想法的影响。

来看看作者反馈:

作者反馈:

我们很高兴地看到审稿人理解了我们引入的想法(优先级,分布式Retrace和beta-LOO策略梯度算法)以及肯定了我们将想法集成到单个代理体系结构中的新颖性。

  • Reactor的样本效率仍然低于Rainbow,在200M帧后得分显着降低。

这是不正确的。在人类开始评估中,Reactor在200M步骤中明显优于Rainbow。在自动开始评估中,Rainbow在200M步骤中明显优于Reactor。 Reactor和Rainbow都进行了30次随机无操作启动训练。他们对30个随机人类开始的评估显示了每个算法对新的初始条件的概括。我们认为这里的泛化问题类似于监督学习中训练和测试错误之间的问题。因此,我们证明了Reactor更好地概括了这些隐藏的初始状态。

  • 虽然Reactor训练速度更快,但它确实使用了更多的并行计算,因此在时间上与Rainbow的比较并不完全公平。

审核者是正确的,因为Reactor每秒执行更多浮点运算,但它在单位时间内训练的时间要短得多,导致执行的计算总数相似。我们没有声称Reactor使用整体较少的计算操作来训练Agent。尽管如此,我们认为在时间方面采用快速算法很重要,因为有可能缩短实验时间。该措施仍然给读者提供了启发式的信息,因为当多个CPU机器可用时(而不是单个GPU机器),可以选择Reactor而不是Rainbow。

  • 经验比较仅限于Atari(一个游戏平台,常被用来测试人工智能)平台。

我们确实专注于Atari平台,以便于与之前的也在这上面测试的工作进行效果上的比较。

  • 由于本文引入了一些新的idea,如优先序列record,如果对这些个体方案的影响进行更详细的分析,将会有所帮助。

该论文已经包含了ablation study,比较了各个组成部分的相对重要性。由于新贡献的数量很大(beta-LOO,分布式回扫,优先顺序重放),因此很难探索组件的所有可能配置(的组合)。

博主注:ablation study

ablation study就是把模型内某个子模块拿掉,比较前后效果,比如可以拿掉RCNN里的CNN,比较实验结果,就可以彰显这个子模块的重要性。最后这个作者回复说,“很难探索组件的所有可能配置”,就是说各种子模块太多,要一个个或者多个组合来去掉做ablation study工作量会很大。