消融实验(ablation study)是什么?

时间:2024-10-26 09:11:11

太长不看版:

说白了就是设立对照组/控制变量法的意思,通过去除/增加某个模块的作用,来证明该模块的必要性,如果消融实验后得到性能结果大幅变化,说明该模块起到了作用。

——————————————————————————

严谨版:

Robert Long对消融研究(或消融实验)定义:通常用于神经网络,尤其是相对复杂的神经网络,如R-CNN。我们的想法是通过删除部分网络并研究网络的性能来了解网络

“消融”的原始含义是手术切除身体组织。

ablation
解释: 通过机械方法切除身体组织,如手术,从身体中去除,尤指器官、异常生长或有害物质。

“消融研究”这一术语的根源于20世纪60年代和70年代的实验心理学领域,其中动物的大脑部分被移除以研究其对其行为的影响。
在机器学习,特别是复杂的深度神经网络的背景下,已经采用“消融研究”来描述去除网络的某些部分的过程,以便更好地理解网络的行为。

自从Keras深度学习框架的主要作者Francois Chollet在2018年6月发布twtter以来,该术语受到了关注:

消融研究对于深度学习研究至关重要。理解系统中的因果关系是产生可靠知识的最直接方式(任何研究的目标)。消融是一种非常省力的方式来研究因果关系。
如果您采用任何复杂的深度学习实验设置,您可能会删除一些模块(或用随机的模块替换一些训练有素的功能)而不会降低性能。消除研究过程中的噪音:进行消融研究。
如果您无法完全理解您的系统?很多活动部件,想确定它的工作原因是否与您的假设密切相关?尝试删除东西。花费至少约10%的实验时间来诚实地反驳你的论文。

举个例子会理解直观些:

       Girshick及其同事描述了一个由三个“模块”组成的物体检测系统:第一个使用选择性搜索算法提出图像区域,在该区域内搜索物体。进入一个大的卷积神经网络(有5个卷积层和2个完全连接的层),进行特征提取,然后进入一组支持向量机进行分类。为了更好地理解该系统,作者进行了一项消融研究,其中系统的不同部分被移除 - 例如,移除CNN的一个或两个完全连接的层导致性能损失惊人地少。

这使作者得出结论:

CNN的大部分代表性力量来自其卷积层,而不是来自更大的密集连接层。

Reference:

Girshick, R., Donahue, J., Darrell, T. and Malik, J., 2014. 《Rich feature hierarchies for accurate object detection and semantic segmentation》. In Proceedings of the IEEE conference on computer vision and pattern recognition (580-587页).