本文是本人对Lucas Theis,Wenzhe Shi, (Twitter London, UK )等人2017年发表的文章“LOSSY IMAGE COMPRESSION WITH COMPRESSIVE AUTOENCODERS” (有损图像压缩自编码器)的自我理解,,本人在看文章之前对神经网络只存在听过的阶段,对图像压缩有一定的了解,下边内容是自己的理解,,很浅显,也可能有错误的地方,希望相关人士能给予建议和帮助。
……………………………………………………………………………………………………………………………………
文章在其他文献的基础上,提出了一种基于传统卷积神经网络结构的有损图像自编码器(CAE),且对量化,熵率估计模块,以及神经网络训练模块做了相应的改进(增量训练策略),文章的目标是直接优化由自编码器产生的失真率权衡(用于神经网路的训练) ,且可实现高分辨率的图像在低分辨率的终端上显示,且图像压缩结果在SSIM,MOS分数等角度上可以和JPEG2000的结果媲美。具体模型如图:
CAE有三个部分组成:编码器f、解码器g、概率模型Q(分配熵编码比特数)
具体流程:
Encoder:规范化—镜像填充—图像卷积—空间下采样—量化(就近取整)—code 编码输出
Modle: 高斯尺度混合GSM(控制量化系数分布)+noise
Decoder: 卷积—上采样(在子像素卷积的情况下)—去标准化—clip.
规范化:规范化以每个通道值的分布为中心,并确保其具有近似单位方差;
镜像填充:使得图像编码器输出具有和8倍下采样相同的空间范围;解决图像的边缘问题;
卷积和空间下采样(并将图像通道从64个增加到128个,卷积神经网络的内容)之后是三个剩余块,前两个剩余块都有两个含有128个filter的卷积层,最后一个剩余块卷积层之后对系数进行下采样。
量化:量化采用就近取整函数,且做了相应的改进,
Sub-pix卷积层:有卷积和系数重组构成,
Clip :将图像灰度值控制在0-255之间。
GSM:高斯尺度混合模型
本文优化部分:
1) 量化: 由于量化是不可微的,不存在梯度,不利于训练,文章对编码器的量化采用就近取整的方法:
在反向迭代(神经网络中用于学习,优化参数的方法)中梯度采用:就近取整量化的方法不变的基础上,对其梯度采用近似的方法即 r(y)=y, 其梯度为: 。
2) 熵率估计:在GSM中应用,用于对量化的系数分配比特数,目标是要求低比特率具有小的失真,涉及失真权衡
其中用于权衡失真,表示经编码与解码后的失真。
由于Q服从离散概率分布,是不可微的,文中引进一个可微分的概率密度函数q用于近似并计算出了一个上界函数可用来训练编码器:
3) 增量式训练:引进一个附加二进制掩模,相当于一个微调系数,针对不同的熵率微调之前的自编码器模型。