图像处理(4)--基于内容的图像检索

时间:2024-04-07 14:13:40

图像处理系列笔记:https://blog.csdn.net/qq_33208851/article/details/95335809


1. 为什么需要基于内容的图像检索(CBIR)

当前图像内容的特征

  • 海量的图像内容的出现
  • 图像内容的特征:没有索引、目录和摘要

基于文字描述的图像检索

  • 丰富的图像内容很难用文字来全面描述
  • 文字的选取因人而异,带有很大的主观性
  • 耗费很大的人力和时间

所以对于海量的图像,基于人工标注文字检索已经不可能

2. 查询方式和现有系统

  • 查询方式
    利用采样图像:选择数据库中的图像
    利用范例图像:来自图像库之外,用户自己提供
    利用局部图像:先提取图像区域,再利用该图像区域检索;或利用不同图像的不同区域的拼图
    利用绘制图像:草图、绘画…
  • 现有系统
    QBIC(Query By Image Content),Virage,Photobook,VisualSEEK,MARS…

3. 具体内容

3.1 特征提取

颜色特征:颜色空间(RGB,CMK,HSI,HSV)、颜色特征表示、颜色相似度匹配算法
均匀颜色空间模型
从图像处理的角度,对颜色的描述应该与人对颜色的感知越接近越好
从视觉感知的角度,人所感知到的两个颜色的距离应该与这两个颜色在表达它们的颜色空间中的距离越成比例越好
如果在一个颜色空间中,人所观察到的两种颜色的区别程度与该颜色空间中两点间的欧式距离对应,则称该空间为均匀颜色空间
典型的例子:MTM,Luv和Lab

3.2 颜色特征

颜色特征的表示
统计直方图
图像处理(4)--基于内容的图像检索
图像处理(4)--基于内容的图像检索
累积直方图
图像处理(4)--基于内容的图像检索
图像处理(4)--基于内容的图像检索
图像处理(4)--基于内容的图像检索
颜色布局算法
图像处理(4)--基于内容的图像检索
将整幅图像平均分为64块,计算每一块中所有像素各颜色分量的平均值,以此作为该块的代表颜色(主颜色)
将各块的平均值数据进行DCT变换
通过之字形扫描和量化,取出3组颜色DCT变换后的低频分量,构成该图像的颜色布局描述符
颜色相似度匹配算法
(1) 直方图相交法
图像处理(4)--基于内容的图像检索
如果用HSV直方图表示每幅图像,则两幅图像Q和D的直方图交表示为:
图像处理(4)--基于内容的图像检索
(2) 欧氏距离法
图像处理(4)--基于内容的图像检索
带权重的欧式距离法
图像处理(4)--基于内容的图像检索
(3) 距离法
如果图像用RGB三个分量来表示,则图像的特征向量由这三个分量的均值组成
图像处理(4)--基于内容的图像检索
图像Q和D的相似值为
图像处理(4)--基于内容的图像检索
MPEG-7建议的颜色布局描述符在匹配时使用的距离公式:
图像处理(4)--基于内容的图像检索
W为权重,Yi,Cri,Cbi为各个分量的第i个DCT系数
(4) 中心距法
对一幅灰度级为L的图像,其直方图为H(i),则该图像的前三阶中心矩分别为:
图像处理(4)--基于内容的图像检索
对彩色图像,用Mi,QR,Mi,QG,Mi,QB和Mi,DR,Mi,DG,Mi,DB表示图像Q和D的三个分量R,G,B的直方图i(i<=3)阶中心距,则它们之间的匹配值为
图像处理(4)--基于内容的图像检索
(5) 参考颜色法
距离法太粗糙,脂肪图相交法计算量太大
折衷的方法:将图像颜色用一组参考色表示,这组参考色应能覆盖视觉上可感受的各种颜色
参考色的数量要比原图的少,可得简化的直方图,所以匹配的特征向量是:
图像处理(4)--基于内容的图像检索
ri是第i中颜色出现的频率,n是参考颜色的尺寸
加权后的查询图像Q和数据库图像D之间的匹配值为
图像处理(4)--基于内容的图像检索
其中,
图像处理(4)--基于内容的图像检索

3.3 纹理特征

描述图像时常用的一个概念,类似于颜色,也取决于感知
对纹理的感受是与心里效果相结合的,所以很难用语言或者文字来描述纹理
图像处理(4)--基于内容的图像检索
纹理可认为是灰度(颜色)在空间以一定的形式变化而产生的图案(模式)
一般来说,纹理图像中灰度分布具有某种周期性,即使灰度变化是随机的,它也具有一定的统计特性
纹理通常和图像频谱中的高频分量是密切联系的,光滑的图像(主要包括低频分量)一般不认为是纹理图像
纹理的表示

  • Tamura表示法
    描述纹理的三个量:对比度、粗细度和方向性
    利用这3个量可以组成一个两点间的欧氏距离与人对纹理感知的差距很接近的3-D空间
    对比度(contrast)
    依赖于像素的灰度分布,可测量图像中局部的灰度变化,也常用作对图像整体感知的一种描述
    一般来说,图像的对比度与图像的灰度的动态范围及图像中边缘的尖锐程度都有关
    图像处理(4)--基于内容的图像检索
    其中,σ是图像灰度的标准方差,μ4是图像灰度的4阶中心矩
    粗细度(coarseness)(也叫粗造度):
    测量纹理的间隔尺寸/粒度
    与图像的分辨率有关,分辨率越大则纹理比较粗,即组成纹理的元素的尺寸比较大
    图像处理(4)--基于内容的图像检索
    其中,窗口尺寸是2kx2k,k能使X和Y方向的图像处理(4)--基于内容的图像检索
    最大化,k的取值在0-5之间
    方向性(directionality)
    是一个全局的纹理特征,它描述纹理是如何沿着某些方向散步或集中的
    一般来说,方向性与纹理基元的形状以及如何将这些纹理基元排列的规则有关
  • 联合概率矩阵表示
    首先基于像素间的距离和方向建立联合概率矩阵
    然后从联合概率矩阵中提取出有意义的统计量作为纹理描述
  • 小波表示
    可用小波子带的统计量(均值和方差)作为纹理表示

图像处理(4)--基于内容的图像检索
图像处理(4)--基于内容的图像检索

3.4 形状特征

从不同视角获取的图像中目标形状可能会有很大差别
为准确进行形状匹配,需要解决平移、 尺度、旋转变换不变性的问题
通常,形状表示方法可分为两类:
—类是基于边缘的形状表示
另一类是基于区域的形状表示

  • 描述方法
    傅里叶描述子:利用傅里叶变换的边界作为形状特征
    不变矩描述子:利用基于区域的矩作为形状特征
    有限元素法、旋转函数、小波描述子等
  • 基于形状的图像检索的应用
    商标图像检索
    指纹图像检索
    建筑图纸检索
    机械图纸检索
    医学图像检索
    图像处理(4)--基于内容的图像检索
    图像处理(4)--基于内容的图像检索
    图像处理(4)--基于内容的图像检索

3.5 相关反馈

  • 为什么需要反馈?
    目前所提取的描述特征还不能完整或全面地描述图像的内容:
    很难说不同特征的不同表达,哪种最好
    对高层概念和视觉感知都很难建立有效模型
    人类不具有关于底层特征的全面知识。所以,仅通过一次检索就找到需要的图像是不现实的
    将用户的特殊要求反馈给系统,以使检索更有效且更接近用户的要求

  • 基于底层视觉特征的检索系统带来的主要问题
    人类髙层语义特征和计算机底层特征表示的矛盾
    •十五的月亮,容易想到颜色、亮度和形状
    •漂亮的衣服,很难想到颜色、长短或尺寸
    人类视觉感知的主观性一因人而异:
    •有人关注阁像的K域色彩而有人关注K域布局
    •可能有人注重色调而有人注重饱和度

  • 相关反馈的特点
    利用用户先前的检索结果信息进行反馈来自动 调节当前査询,也可借助人机交互细化用底层特 征表达的高层査询
    使用相关反馈来建立髙层概念和底层特征之间 的联系

  • 相关反馈的过程
    用户进行一次初步查询,系统返回检索结果
    用户判断结果,标记满意的结果为正例,标记不满意的结果为反例
    系统根据用户标记结果进行自我调整(如调整 搜索策略、算法参数、不同特征的权重等),进 行新一轮检索
    根据用户要求,反复进行

  • 相关反馈的研究
    査询点移动:改进对理想査询点的估计,具体是将该査询点移向好的范例点而远离坏的范例点
    Rocchio提出的如下公式
    图像处理(4)--基于内容的图像检索
    其中,Qi和Q(i+1) 别 对 应 査 询 迭 代 中 第 i次和第i+l次的査询点位置;Di是特征向量,|Di|是Di的基数,rel 和 nonrel表示相 关文档和非相关文档,α,β和γ是适当的参数,己在MARS中被实现

再加权/调整权重:提高那些有助于检索相关 图像的特征的权重,同时降低有碍于检索相关图 像的特征的权重。MARS系统实现了被称为标准背 离方法的再加权方法的较小的改进

3.6 索引结构

为什么需要索引结构?
海量的图像内容
图像检索的速度要求
可用的索引结构

  • 满足距离定义的索引结构,如使用欧式距离 度量图像的相似度
  • 距离的定义
    图像处理(4)--基于内容的图像检索

3.7 MPEG-7

Multimedia Content Description Interface, 多媒体内容描述接口
包括静止图像、运动图像、计算机图形、3-D 模型、动画、语言、声音等
建立对不同多媒体信息(主要为音频视频)的 标准描述(包括指定一组描述符和描述方案)
仅仅是描述有关内容的信息,但并不是内容本 身

  • MPEG-7标准的 4个特点
    通用:能够描述各种应用环境的多媒体内容
    基于目标的数据模型:能够分别描述单个目标,如场景和场景中的目标
    集成:将底层的特征和高层的描述集成到同一 个结构中,结合了它们的描述能力
    可扩展:描述定义语言保证了可将MPEG-7标准 扩展到新的应用领域,满足新的需求并集成新的 描述工具
    图像处理(4)--基于内容的图像检索

图像处理系列笔记:https://blog.csdn.net/qq_33208851/article/details/95335809