数字图像性质
数字图像具有一些度量和拓扑性质, 与我们在基础微积分中所熟悉的连续二维凶数的性质有所不同。 另一个不同点在于人对图像的感知, 因为对图像质量的判断也是重要的。
数字图像的度量和拓扑性质
一幅数字图像由有限太小的像素组成, 像素反映图像特定位置处的亮度信息。 通常〈此后都这样假设〉像素按照矩形采样栅格布置。我们用二维矩阵来表示这样的数字图像,矩阵的元素是自然数,对应于亮度范围的量化级别。
连续图像所具有的一些明显的直觉特性在数字图像领域中没有直接的类似推广。 距离(distance) 是一个重要的例子。满足以下三个条件的任何函数是一种 “距离”(或度量):
欧氏距离:
欧氏距离的优点是它在事实上是直观且显然的。 缺点是平方根的计算费时且其数值不是整数。
由一些彼此邻接的像素组成的重要集合,我们称为区域(regions) 。
如果两个像素之间在在一条路径,那么这些像素就是连通的(contiguous)。因此,可以说区域是彼此连通的像素的集合。
距离变换
作为说明,我们来考虑一幅二值图像, 其中1表示物体 ,0表示背景。这里,距离变换给图像的每个像素赋予到最近物体或到整个图像的边界的距离。物体内部的像素的距离变换等于0。输入图像如图 2.8所示, 马距离的距离变换结果如图 2.9所示。
距离变换有很多应用,例如,在离散几何中,在移动机器人领域中的路径规划和障碍躲避,在图像中寻找最近特征, 骨架抽取。
边界
边缘(edge) 是另一个重要的概念。它是一个像索和其直接邻域的局部性质,它是一 个有大小和方向的矢量。边缘告诉我们在一个像素的小邻域内 图像亮度变化有多快。
区域的边界(border)是图像分析中的另一个重要概念。区域R的边界是它自身的一 个像素集合,其中的每个点 具有一个或更多个R外的邻接点 。该定义与我们对边界 的直觉理解相对应,即边界是区域的边界点的集合。有时我们称这样定义的边界为内部边界( inner border), 以便与外部边界(outer border)相区别 , 外部边界是指区域的背景(即区域的补集)的边界。
“边界 ” 与 “ 边缘 ” 虽然相关 ,但是它们却不是同 一 个概念。边界是与区域 有关的全局概念, 而边缘表示图像函数的局部性质。
一个区域是凸(convex)的是指如果 区域内的任意两点连成二条线段,那么这条线段完整地位于区域内 。凸 性将所有区域划分为两个等价类: 凸的和非凸的。
一个区域的凸包(convex hull)是指包含输入区域(可能非凸)的一个最小凸区域 。
拓扑性质(topological properties)不是基于距离的概念。
非规则形状的物体可以用一组它的知扑分量来表示, 如图 2.15 所示 凸包中非物体的部分称为凸损( deficit of convexity);它可以分解为两个子集:湖(lakes)(深灰色〉, 完全被物体所包包:海湾(bays)(浅灰色),与物体的凸包的边界连通。
直方图
图像的亮度直方图(brightness histogram) h(z) 给出图像中亮度值z 出现的频率, 一幅有L个灰阶的图像的直方图由具有L个元素的一维数组表示。
直方图在图像和概率描述之间建立了一个自然的桥梁。
在直方图中感兴趣的不是像系的位置, 而是密度函数pi(z),亮度就是它的估计,直方图通常用柱状图来显示。
直方图通常是有关图像的唯一可得到的全局信息。在寻找最佳的照明条件以便抓取图像、进行灰阶变换以及将图像分割为物体和背景这些场合,都要用到直方图。请注意,同一直方图可能对于几幅图像,例如,当背景是常数时,物体位置的改变不会影响直方图。
熵
如果知道概率密度p,用熵H就可以突击出图像的信息量,与其解释无关。熵的概念根源于热力学和统计力学,直到很多年后才与信息联系起来。熵的信息论的形成源于香农[Shannon,1948],常称作信息摘(information entropy)。
信息熵的直觉理解与关联于给定概率分布的事件的不确定性大小有关。熵可作为“失调”的度量。当失调水平上升时,熵就增加而事件就越难于预测。
熵度量随机变量实现的不确定性。
图像的视觉感知
我们在设计或使用数’严图像处理算法或设备时,应该考虑人的图像感知原理。
对比度、边界、形状、纹理、色彩
对比度(contrast)
对比度是亮度的局部变化,定义为物体亮度的平均值与背景亮度的比值。严格地说, 如果我们的目的要在物理上精确, 应该讲的辐射率而非亮度。 人的眼睛对亮度的敏感性成对数关系, 意味着对同样的感知,高亮度需要高的对比度。
表观上亮度很大程度取决于局部背景的亮度, 这种现象被称为条件对比度(conditional contrast)。下图给出了包围在不同亮度方块中的5个同样大小的圆,人对其中的小圆感知到的亮度是不同的。
敏锐度(acuity)
敏锐度是觉察图像细节的能力。人的眼睛对于图像平面中的亮度的缓慢和快速变化敏感度差一些而对于其间的中等变化较为敏感。敏锐度也随着离光轴距离的增加而降低。
图像的分辨受制于人眼的分辨能力,用比观察都所具有的更高的分辨率来表达视觉信息是没有意义的。光学中的分辨率定义为如下的最大视角的倒数:观察者与两个最近的他所能够区分的点之间的视角。这两个点再近的话,就会被当作一个点。
人对物体的视觉分辨率在物体位于眼睛前250处。照明度在500的情况下最好,这样的照明是由400远的60灯泡提供的。在这种情况下,可以区分的两个点这间的距离大约是0.16MM。
一些视觉错觉(visual illusions)
人对图像的视觉感知有很多错觉,物体的边界对人而言携带了大量的信息。
Ebbinghaus错觉是 一个熟知的例子,图像中心的两个同样直径的圆看起来直径不同
对于主体形状的视觉感知可能会被附近形状欺骗。
感知组织(Perceptual grouping)
感知组织是计算机视觉中用到的一个原理,将由低层操作提供的基元聚集起来,是小块变为具有某种意义的大块。其根源在格式塔心理学。
格式塔理论本意是要具有普适性,但是其原则几乎完全是从对视觉感知的观察得出的。
图像品质
在图像的捕获、传输或处理过程中可能使图像退化,图像品质的的度量可以用来估计退化的程度。我们对图像品质的要求取决于具体的应用目标。
估计图像品质的的方法可分为两类:主观的和客观 的。
主观的方法常见于电视技术中,其中最终评判标准是一组挑选出来的内行和外行观众的感觉。他们根据一张标准清单通过给出估计评分来评价图像。
度量图像品质的客观定量方法对我们更重要。理想的情况是,这样的方法同时也提供了主观的测试,且易于使用,这样晕介就可以将该标准用于参数优化。图像f(xy)的品质通常通过与一个书籍的参考图像g(xy)进行比较来估计[Rosenfeld and Kak 82]。为这一目的,常常要使用合成的图像作为参考图像。有一类方法使用简单的度量,比如均方差∑∑(g-f)2。这种方法的总是是不可能把几个大的差别与许多小的差别区分开来。除了均方差之外,还可以作用平均的绝对差或者简单的最大的绝对差。图像F和G这间的相关运算也是一种选择。
另一类方法是测量图像中小的或最近的物体的分辨率。由黑白条纹组成的图像可以用于这一目的,这时每毫米黑白条纹对数目就给出了分辨率的大小。
图像中的噪声
实际的图像常受一些随机误差的影响而退化,我们通常称这个退化为 噪声(noise) 。在图像的捕获、舆或处理过程中 能出现噪声,噪声可能依赖于图像内容,也可能与其无关。
噪声一般由其概率特征来描述。理想的噪声,称作白噪声(white noise)。具有常量的功率谱,也就是说其强度并不随着频率的增加而衰咸。白噪声是常用的模型,作为退化的最坏估计。使用这种模型的优点是计算简单。白噪声的一个特例是高斯噪声(Gaussian noise)。服从高斯(正态)分布的随机变量具有高斯曲线型的概率密度。在一维的情况下,密度函数是:
其中和分别是随机变量的均值和标准差。在很多实际情况下,噪声可以很好地用高斯噪声来近似。
当图像通过信道传输时,噪声一般与出现的图像信号无关。类似的噪声也出现在老式的摄像机中。这种独立于信号的退化被称为加性噪声(additive noise),可以用如下的模型来表示:
其中 ,噪声v和输入图像g是相互独立的变量。
信噪比SNR ( signal-to-noise ratio):
信噪比就是信号的平均功率和噪声的平均功率之比,即:S/N。
用分贝(dB)作为度量单位,即:信噪比(dB)= 10 * log10(S/N) (dB)
例如:当S/N=10时,信噪比为10dB;当S/N=1000时,信噪比为30dB。
量化噪声(quantization noise) 会在量化级别不中时出现,例如,仅有50个级别的单色图像,这种情况下会出现伪轮廓。量化噪声可以被简单地消除,参见第2.2.2节。
冲激噪声(impulsive noise) 是指一幅图像被个别噪声像素破坏,这些像素的亮度与其领域的显著不同。胡椒盐噪声(salt-pepper noise)是指饱和的冲激噪声,这时图像被一些白的或黑的像素所破坏。胡椒盐噪声会使二值图像退化。
抑制图像噪声 将在第4章中论述。如果对于噪声的性质没有任何先验知识,局部处理方法是合适的。如果事先知道噪声的参数,可以使用图像复原技术。