1. 背景介绍
图像是人类感知和机器模式识别的重要信息源,其质量对所获取信息的充分性和准确性起着决定性的作用。然而,图像在获取、压缩、处理、传输、显示等过程中难免会出现一定程度的失真。如何衡量图像的质量、评定图像是否满足某种特定应用要求?要解决这个问题,需要建立有效的图像质量评价*。目前,图像质量评价从方法上可分为主观评价方法和客观评价方法,前者凭借实验人员的主观感知来评价对象的质量;后者依据模型给出的量化指标,模拟人类视觉系统感知机制来衡量图像质量。
2. 图像质量评价的作用
评价和指导图像编码压缩:无损压缩方法能力非常有限,主流图像编码压缩方法都是以有损压缩为主以无损压缩为辅,一方面,编码框架中每个模块的选择和参数设置都以图像质量为依据,另一方面,从H.263到H.264再到H.265,每一代标准同等质量码率降低一半,压缩性能已经十分惊人,到现在想再进一步提升压缩性能已经越来越难,图像质量评价方法也是制约因素之一。
评价和指导图像处理算法:我们有时需要比较或选择图像处理算法,评价指标就是公平比较各种算法, IQA是部分图像处理算法的评价指标之一,如图像去雾,去噪,融合,增强等。
动态的检测和调整图像质量的状况:例如图像和视频采集系统可以根据质量评价的结果来自动的调整系统的参数以获得最佳质量的图像和视频数据;在网络数字视频服务中我们也可以用评价模型来实时的检查当前网络上传传输图像视频的质量状况和分配数据流资源。
3. 主观质量评价
主观质量评分法是图像质量最具代表性的主观评价方法,它通过对观察者的评分归一化来判断图像质量。而主观质量评分法又可以分为绝对评价和相对评价两种类型。
国际电信联盟( ITU) 提出了很多种主观评价方法的标准,最常用有三种,即双刺激损伤分级法、 双刺激连续质量分级法和单刺激连续质量分级法:
- 双刺激损伤分级法,给定原始图像( 未失真的参考图像) 、待测图像( 有一定失真) 两组图像,对比两组图像观察出待测图像的受损情况,根据图像主观质量5 级评分表,选出待测图像的等级。
- 双刺激连续质量分级法,同样给定两组图像,不同之处是观测者完全不知道哪个是参考图像,哪个为失真图像。观测者只需根据评分表分别对参考图像和待测图像评分。最后计算参考图像和待测图像的平均主观分值法 ( Mean Opinion Score MOS) 得分,并计算两者之差的差分主观分值法 DMOS。DMOS 越小,说明待测图像的质量越好。
- 单刺激连续质量分级法,与绝对主观评价类似,单刺激连续质量分级法是在一定连续时间内,只观察待测图像。观察者根据评分表连续对待测图像评分,根据评分和评分时间得到待测图像的质量评价。
为得到定量的主观评价结果, 需要设计主观评价实验, 其中包括三个步骤:
- 准备样本集(样本集中所包含的失真类型要全面);
- 由观测者对样本集的图像质量进行评价(观测者对图像质量进行评价时, 需考虑显示设备的配置、观测距离、观测者的来源、对观测者的培训、每一个观测小组的人员个数和观测图像数目、每次观测的时间以及如何对图像进行评价等方面);
- 对主观评价结果进行加工(由于观测者对图像的主观评价值是一个松散的分布, 为了减轻主观因素的影响, 得到一个比较稳定的结果, 需要对原始数据进行取舍:评分出界的检测、对观测者的淘汰)。评价的结果可用一定数量的观察者给出的平均分数求得。如下:
3.1 主观质量评价优缺点
图像的主观评价方法的有点是能够真实的反映图像的直观质量,评价结果可靠,无技术障碍。但是主观评价方法也有很多缺点,比如要对图像进行多次重复实验,无法应用数学模型对其进行描述,从工程应用的角度看,耗时多、费用高,难以实现实时的质量评价。在时间应用中,主观评价结果还会受观察者的知识背景、观测动机、观测环境等因素的影响。
3.2 质量评价数据库
要想公正的比较各个IQA算法的性能,有必要建立一个具有各种内容和失真的图像数据集。图像质量评估的数据集也很多,但公认度最高的还是前四个,即LIVE, CSIQ, TID2008和TID2013,这些库都提供了每幅失真图像的主观评分值MOS。详情如下:
给定这些数据集,然后就可以计算平均主观评分和客观模型预测值之间的差异和相关性。 更高的相关性表明更好的模型性能。
4. 客观质量评价
图像质量的客观评价是根据人眼的主观视觉系统建立数学模型,并通过具体的公式计算图像的质量。相比主观评价,客观评价具有可批量处理、结果可重现的特点,不会因为人为的原因出现偏差。
图像质量客观评价的基本目标是设计能精确和自动感知图像质量的计算模型。其终极目标是希望用计算机来代替人类视觉系统去观看和认知图像。在国际上,图像质量客观评价通常是通过测试多个影响影像质量的因素的表现,并通过计算模型获得图像质量量化值与人类主观观测值一致性的好坏来评估的。美国的Imatest和法国的DxO analyzer就是其中比较出名的图像质量客观评价系统。
Imatest和DxO analyzer有异曲同工之处,都是将影像质量评测拆分成多个测试项目,分别对每个项目进行测试、打分。两者相比,DxO analyzer的测试项目会稍微全面一些。
无论是Imatest还是DxO analyzer,两个测试系统都是通过“测试卡+光源环境+测试软件=测试结果”的模式。通过各种各样的测试卡和光源,在实验室中模拟各种环境,再把成像结果输入软件系统,由系统自动分析,最后得出结果。
我们都知道,我们之所以能看到东西,那是因为物品发出光或者是反射光线,所以,影像质量评测实验室往往会有两种光源:透射性和反射型。京立LLV-9300就是最为被广泛运用的光源之一,它能模仿非常多的环境亮度。
除了光源,测试卡也是非常重要的测试用具。针对不同的测试项目,测试卡也是各有不同,有的可以测试分辨率,有的可以测试MTF,有的可以测试色差……ISO 12233测试卡是测试镜头分辨率最权威测定方法,也是国际MTF成像曲线图和镜头评估的主要依据。
有人非常好奇,为什么影像质量评测需要准备这么多的测试用具,准备少一些测试卡、光源不行吗?
我们要知道,我们准备各种测试卡和光源是为了模拟各种光照环境,以及测试产品在这些光照环境下的表现。我们永远也无法猜到用户会在什么环境下使用我们的产品,就如之前特斯拉没有考虑到用户会在阳光灿烂的时候遇到一辆白色卡车,摄像头在这种情况下失灵而发生了第一起无人驾驶车祸。所以,我们能做到的是尽可能测试产品在各种环境下的表现,争取让产品在各种环境下都表现正常。
客观评价算法根据其对参考图像的依赖程度, 可分成三类。( 1) 全参考: 需要和参考图像上的像素点做一一对应的比较; (2)半参考: 只需要和参考图像上的部分统计特征做比较; ( 3) 无参考: 不需要具体的参考图像。其中全参考算法是研究时间最长、发展最成熟的部分。
4.1全参考图像质量评价
待评价图像信号的质量可以通过与原始图像信号相比之后获得的误差信号来进行质量 分析。图像质量的下降与误差信号的强弱相关。基于此,最简单的质量评价算法就是均方差(Mean Squared Error, MSE)和峰值信噪比(Peak Signal- Noise Ratio, PSNR)。
表达式表示:
式中, R( m, n) 代表参考图像在空间位置( m, n) 的 灰度值, I( m, n) 代表失真图像在空间位置的( m,n) 的灰度值; L 为峰值信号,对于 8 位的灰度图像来说,L=255.
虽然 MSE 和 PSNR 计算形式上非常简单,物理意义理解也很清晰,本质上没有考虑将人类视觉 系统( Human Visual System HVS) 特性引入到图像 质量评价当中来,只是单纯从数学角度来分析差异,与图像的感知质量之间没有必然联系,评价结果不太理想。
人们基于 HVS,提出了相关图像质量评价方法。根据对 HVS 模型描述的侧重点不同,这里将图像质量评价模型归结为基于误差灵敏度评价算法和基于结构相似度评价算法两类。
1) 基于误差灵敏度的图像质量评价
HVS 模型的主要特性包括视觉非线性、多通道、对比敏感度带通、掩盖效应、多通道间不同激励的相互作用以及视觉心理特征。这些算法主要对 HVS 的底层特征进行数学建模,来仿真 HVS 特性以进行客观图像质量评价。HVS 是一个高度复杂和非线性的系统,当前对其认知仍然有限。以上各方法都基于一定的假设前提,取得了一定的效果,但也存在一些问题。
2) 基于结构相似度的图像质量评价
自然图像具有特定的结构,像素间有很强的从属关系,这些从属关系反映了视觉场景中的结构信息[。Wang 等人提出了基于结构失真的图像质量评价方法,称为结构相似 (SSIM)方法。该方法认为光照对于物体结构是独立的,而光照改变主要来源于亮度和对比度;所以它将亮度和对比度从图像的结构信息中分离出来,并结合结构信息对图像质量进行评价。
基于误差灵敏度的评价方法是一种自下而上的方法,它先模拟 HVS 各部分的功能,再将其组合来实现整个 HVS;而SSIM 评价方法则试图从整体上直接模拟 HVS 抽取对象结构的人类视觉功能。
4.2 半参考图像质量评价
半参考评价方法只提取图像的部分信息作为参考,有传输数据量小、灵活性强的优点,且应用范围广。该方法的关键性能指标是特征提取和特征比较。通过比较提取的参考和失真图像的部分信息的误差进行图像质量评价。常见的有三种:
1) 基于原始图像特征方法。该方法由GAO 和 Weisi 等[3]提出,是通过比较视觉敏感系数的关系实现的。首先是利用Contourlet 分解将参考图像和失真图像内视觉敏感系数提取出来,然后比较两者的视觉敏感系数。此方法与主观评价有很好的一 致性。针对不同的失真类型,关键技术是特征的 选取。
2) 基于 Wavelet 域统计模型的方法。利用视觉感知特性,通过统计图像经小波分解后视觉感知系数在各子带中的变化情况,提出了一种基于小波分解的半参考型图像质量评价方法[4]。优点是通 用性强,对不同类型也能广泛应用。
3) 基于数字水印方法。是由 Zhang[5]提出的 基于小波数字水印的图像质量评价方法。通过对比失真图像的水印复原率进行图像质量评价。首 先结合人类视觉系统( HVS) 的特性检测原始图像 的纹理丰富区域,获得水印嵌入指示图; 然后运用 量化参数自动调节系统确保数字水印的较好隐藏 性。优点是预测精确度、单调性和一致性方面较 好。缺点是对图片描述性并不高,评价指标不高, 应用范围有一定的限制。
4.3 无参考图像质量评价
无参考算法可以分为两种: 针对失真类型的算法和基于机器学习的算法。这类方法的特点无需参考图像, 灵活性强。
无参考算法中研究较多的失真类型是 jpeg 和 jpeg2000 ( 即: H. 264视频压缩标准) 压缩失真。
基于机器学习算法不需要分析失真的原因和怎样设计特征衡量失真程度对图像质量的评价,它是直接将学到的“特征”直接作为图像质量评价的标准来进行评价的。
4.4 评价算法应具备的性质
图像质量评价算法应该具备以下三个特性:
- 准确性: 主、客观评价值之间的差异较小;
- 单调性: 客观评价值应随 主观评价值的增减而增减;
- 一致性: 算法在测试集上表现 出的性能与其在训练集上表现的性能相近似。
常见的2种评估指标是线性相关系数(Linear Correlation Coefficient, LCC)和秩相关系数(Spearman’s Rank Order Correlation Coefficient, SROCC)。
LCC(或者PLCC),描述了主、客观评估之间的线性相关性,定义如下:
5. 图像质量评价发展趋势
- 从单纯的客观评价算法转化为主客观相结合的评价算法。
- 半参考、无参考方法将成为主流研究对象。
- 随着技术的发展,如何对立体的图像进行评价也是以后要研究的另一个领域。