论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic

时间:2022-09-13 10:45:01

论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic

前言:不知道你是否被这张实验效果图所震撼?Yes, I do. 那么他是怎么做到的呢?本文提出了一种给灰度图像自动上色的框架,结合了图像的局部和全局先验知识 (both global priors and local image features)。基于CNN,所提出的深度网络有一个融合层,即:fusion layer,可以有效地结合从各个patch得到的局部信息和整幅图像得到的全局信息,整个框架包括global and local priors 以及 colorization model 是端到端的进行训练。此外,本框架可以处理任何分辨率的图像,当然我觉得这个不算是很大的贡献点咯。因为这个是FCN的功能。

本文的框架主要包括四个成分:一个底层的特征网络,一个中层的特征网络,一个全局的特征网络,以及一个上色网络。这些网络的功能如下:
首先,从图像中提取共享的底层特征。利用这些特征,计算全局图像特征和中层图像特征。
然后,底层特征和全局特征通过“fusion layer”得到融合。然后将此作为 colorization network 的输入,然后输出最终的 chromimance map. 注意到,不必要任何预处理和后期处理:it is all computed in a single step. 另外,作为本文方法的一个副产品,我们可以执行场景的分类这个任务。当利用固定大小图像得到的全局特征,本文的方法融合局部和全局特征允许我们的model可以输入任意分辨率的大小,不像大部分的CNN。

本文的贡献点主要有

  1. 一个无用户干预的方法来进行 灰度图像的上色。
  2. 一个 end-to-end network 联合的学习图像的全局和局部特征。
  3. 通过探索分类标签的方法提升性能。
  4. 一个基于全局特征的类型转移技术( a style transfer technique)。
  5. 深度评价了本文的模型,即充分的实验以及很好的实验效果。

Joint Global and Local Model

论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic
论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic

1. Deep Network

深度网络就是多层链接起来构成的一个神经网络。这些网络是为了在给定一个输入之后,预测连续的值。他们是由实现下列功能的函数构成:
y=δ(b+Wx) ,
此处涉及到很多基础的激活函数等相关问题,在此不赘述。需要的朋友,可以参考原文,本文只从大体上做一个介绍。

2. Fusing Global and Local Features for Colorization

我们提出了一种新颖的方法将 global 和 local feature 结合起来。全局特征对于局部特征来说,相当于是一个图像先验来指示输入图像的类型。例如,如果输入的 global feature 表明这是一幅室内的照片,那么局部特征就不会去选择蓝天的颜色或者草地的色彩给这张图,而去选择合适的颜色给家具涂色。这一点可以应用到许多场景中,作为借鉴,即:从全局图像得到某种信息,利用这种信息更加准确的协助进行所要执行的任务。我们将 global image feature network 和 fully convolutional neural network 紧密连接在一起来进行图像的上色。为了进一步的改善模型的效率,两个网络都共享底层特征。

2.1 Shared Low-Level Features

一个 6-layer 的 CNN 直接从输入图像中得到底层的特征,像图中(a)所示。

2.2 Global Image Features

4个卷积层 加三层全连接 用于提取全局图像的特征。

2.3 Mid-Level Features

在底层特征之后,继续用 2层卷积层来得到 中层特征。由于此处用的是卷积层,没有全连接,所以说是一个FCN,然后,就可以处理任意大小的输入了,此处的输出是输入图像的缩放版。特别地,middle-level features networks 的输出是一个立方体,即:h/8 * w/8 *256,其中 h 和 w 分别是输入图像的宽和高,256是特征的维度,具体结构见图(c)。

2.4 Fusing Global and Local Features

论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic

不过,此处所谓的融合,也就是将两组特征进行串联,只是这个公式写的比较装逼,从其中可以看出 [yglobal;ymidu,v]

2.5 Colorization Network

其实就是一个上采样的过程,Oh,Shit,我看不下去了,感觉有点水文的意思。

3. Colorization with Classification

论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic

此处,给出了一个损失函数,即,作者将交叉熵损失函数和MSE Loss联合起来,进行loss的计算。

4. Optimization and Learning

这个没什么好说的,就是训练。

5. Experiment Results

论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic

论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic

可以看到图10,实验失败的样例的对比图,由于上色问题的模糊性,导致帐篷的颜色上色错误了,但是,也无可厚非,这个很难确定有些物体到底是什么颜色的。只是说,大致差不多即可,这种具有模糊性的问题,的确是挺揪心。

再来欣赏几组作者的实验结果贴图:
论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic
论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic
论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic


我的感受:

又到了抒发个人情感的时候了,由于时间关系,就少说两句了,其实我觉得这个文章整体来看,网络结构上的设计并不新颖,也就是网络的各种组合,说不上创新性上有多大,不过其中,根据全局特征来给局部特征一些潜在的暗示,如作者觉得室外图像与室内家具的例子,很好的说明了这个信息的有效性,以及融合的必要性。作者的实验效果,总体上来看是很不错的,也很充分,从整体感受上来说,给9.0分。但是网络设计的创新性只能给5.0分。有点水文的嫌疑,算了,不说了,怕被打!阿弥陀佛!仅仅是个人感受,如果您有什么高见,请不吝赐教!谢谢!!!