笔者在结合自己看论文和实验的经验,抛砖引玉,简单谈一下如何快速的理解一篇深度学习论文。这里的论文多指的是目标检测、目标识别相关。
1. 弄清楚训练和预测流程。一般读者会在意训练流程而忽略到预测流程,或者认为测试流程和训练流程基本雷同。很多论文中也并没有很详细的说明其预测流程,而其预测过程和训练过程并不相同,需要读者理清。例如mtcnn、RCNN系列、还有人脸识别的一些方法等。
2. 如何准备的训练数据和其对应label?很多论文都是多任务相结合,一幅图像的输入可能对应着其类别、bounding box、属性等label,这些label分别是如何计算得来的。
3. 网络结构。是应用已有的网络结果,还是提出了新的网络结构特性,提供了新的layer层? dropout、resnet、batchnorm等。
4. loss。loss和2和3都有何结合,每个loss对应的物理意义的什么?人脸识别中会应用到很多新的loss层,center loss、triplet loss、large margin softmax loss 等。多loss的时候注意loss weight。
在此四点基础上,抓住论文想表达的核心,然后结合其实验(有开源的最好),弄清其参数、细节的设置,快速掌握一篇文章。以上是笔者的一点总结,希望有更多读者分享自己的经验。