谈一谈深度学习之semantic Segmentation

　　上一次发博客已经是9月份的事了....这段时间公司的事实在是多，有写博客的时间都拿去看paper了..正好春节回来写点东西，也正好对这段时间做一个总结。

　　首先当然还是好好说点这段时间的主要工作：语义分割。semantic segmentation 应该是DL这几年快速发展的最重要的领域之一了，但可惜的事，在这方面大家走的并不是很远，还是有很多值得改进的地方，这当然是个很好的事情，特别是我这种想发paper弱渣.....

　　语义分割做的是什么事呢？就是给你一张图，你要对其中的每个pixel做分类，例如把所有的人都涂成红色，车都涂成蓝色。这是在机器人领域和自动驾驶中都非常重要的一步，因为我们开始让电脑真正的开始认识这个世界了。如下图所示：

　　semantic segmentation的转折点是从long的那那篇FCN开始的，之前的方法大多是用PGM建模的方法来做，原理都很清楚，但效果就是不好，因为难以解决的问题太多了。等DL大火之后，果然还是DL大法好，FCN这篇文章我之前是写过笔记的，那时候还比较年轻，现在再好好说一下。

　　这篇文章提出来的全卷积的概念并不新鲜，也无怪乎lecun再FCN获得CVPR的best paper后吐槽了一发，但个人觉得现在DL领域，关键的不是谁提出了什么，而是谁做出了什么，谁做的更好，毕竟效果好才是王道。回到FCN，他的思路很简单，VGG最后的全联接层使得我们的输入只能是固定的，这个很不好，所以就用全卷积层来代替它，这样就可以任意输入了，全卷积层这里有个很多人都有的概念的疑惑，那就是为什么会有人说1*1的卷积就等价于全连接层呢？（而且还是lecun说的...）这事我也纠结过，我们很简单的理解，和全连接层等价的肯定是kernel和feature map一样大的卷积层，但lecun这么说是有语境的...因为在做全连接层之前，我们要把图像拉成一列，如1*1*4096这种，这样对他做1*1的卷积就等价于全连接层了...也算是我一个无聊的发现...

　　说说FCN的创新点和问题，最大的创新点就是skip connection了，这个trick到现在都是很不错的想法，不同level的feature map所提供的信息是不同的，所以在最后分类的时候都可以用到他们，semantic segmentation一直有一个trade-off，就是物体的边缘和物体整体的分类的正确性，high-level的feature能提供更细节的表现，low-level的feature侧重于于很大一块区域的准确性，传统解决这个问题的方法一般是两种：1.multi-scale的input。2.skip connection。　　这方面最近有个叫refinenet的paper做的挺不错的，它用restnet的思想将网络分为两条路，一个负责location，一个负责refine，有兴趣可以去看看。回到FCN的问题，也是我最想吐槽的一点....VGG的model时downsample 32倍的，所以FCN使用了原来classification一样的模型，所以在经过最后7*7点卷积之后，feature map就只有1*1点大小了....也就是说我们要从1*1点feature map上恢复到原图，虽然说它到channel很多，但毫无疑问，它提供的信息时严重不足的，这也无怪乎他得用skip connection了..这里要谈一谈downsample的问题，downsample太多的话会丢失原图的很多信息，毕竟我们是做pixel级别的分类，所以根据我的经验，一般是8倍或者16倍左右...

　　现在做semantatic segmentation 主要还是用的deeplab那一套，接下来我准备好好讲一下deeplab这一套方法...

　　deeplab那篇paper很推荐大家去看一下，他应该基本代表了现在semantic segmentation的state of art的流程了，我分几点说一下吧：

一、encoder层：

　　encoder层我的理解是把原图downsample的步骤，一般来说这一步使用的网络是和分类使用的一致的，分类的网络性能越强，最后大效果也就越好，所以现在普遍使用的是resnet（152），这里需要注意的问题就是，传统的classification下采样的倍数太大了，不利于分割，但是我们又不能不用pretrain-model，因为用了imagenet或者COCO的pretrain model，结果一定会涨。。而且收敛会快很多。这里通用的解决方法是用hole算法，其实说白了，就是使用dilated convlution，在卷积的时候，不是对一块连续的区域卷积，而是跳跃式的，如下图所示：

　　谈一谈深度学习之semantic Segmentation

　　这样做的话有两个好处：

　　　　　　1.pretrain model可以用了，在需要downsample的地方，把所有的卷积变为一个dilation 2的卷积。

　　　　　　2.可以任意的提高感受野了，只要增加dilation即可，当然，有机会可以说一下，理论上的感受野不代表实际的感受野，因为会有很多的重合，所以理论感受野的中间会对最后的结果影响很大，而边缘地方影响很小，最近有篇paper也提到了这点，有时间放上链接吧。。。PS：因此在未来recepitive filed的研究上，我觉得好好解决这个问题是一个不错的思路。

二、decoder层：

　　和encoder层对应的自然就是decoder层，这个也很好理解，我们要对pixel做分类，自然就要把图像upsample到原图的大小（或者一半，然后再做biliner upsample），upsample的方法有几类，根据我的经验....都差不了多少，卷积+biliear或者卷积+反卷积或者卷积+unpooling，最后一个在deconvlution那篇paper出现的方法一度让我以为是通用的方法，直到发现大家开始抛弃pooling的downsample方法以后...不用pooling下采样很好理解，毕竟我们是做pixel级别的分类，所以还是用可学习的下采样，上采样的比较好。

　　另外，decoder层需要注意的事，实际上它并不需要和encoder层一样大，deconvlution那篇paper提出的对称结构确实优雅而且看起来就有理有据，但实际上并不是需要这么做的，enet的那篇paper对此做过说明，简单的理解就是：decoder实际上就是对feature map做一个upsample的refine，这个时候网络已经学习到了需要的东西了，毕竟我们并不是要去做一个autoencoder。。。

三、post-processing 后处理

　　后处理这个东西，其实有点小尴尬，作为刷榜的不二神器，他有两个问题：1.不符合现在很多人对end-to-end的迷之追求。2.太慢了，正常使用的dense crf会比神经网络慢很多，最后的实用场景基本不可能使用。

　　dense crf的调参也是我不能承受之痛...直到用了同事grid search的暴力调参大法，才结束我那段黑暗的日子....

　　不扯了，简单的说一下常见的后处理方法-CRF吧，crf作为经典的一个图模型，本来是semantic segmentation的主要方法，直到DL出现...最终沦为了后处理...DL+CRF有着天然的方便，为什么这么说了，CRF的优化是要有一个初始化的state的，也就是每个pixel的unary energy，如果只有label的方法等话，一般也就是用概率和置信度来暴力指定了，但其实神经网络的最后一层一般是softmax，所以我们完全可以用softmax的输出作为CRF中unary enargy的初始化，至于pair energy，还是常规的RGB像素值和XY location值了。

　　实际上，对于CRF大家是又爱又恨的，所以后面也出现了不少的改进方法，如CRF as RNN，CNN+LSTM这些，实际效果我没试过，但估计是呵呵了，比较期待的是北大的segmodel，看他们在cityscapes上的表现，感觉CVPR2017会有一个惊喜..

总结：

　　日常总结，segmentation是一个很不错的领域，但个人感觉大家主要还是在拼trick和调参技巧，这真是最没意思的行为了。但也很好，给了我们不少想象的空间，我最近的工作就是receptive filed 、side information上做点文章...希望可以出点东西吧。加油～

秒客网

谈一谈深度学习之semantic Segmentation

相关文章