2013春天一个普普通通的下午,在剑桥大学牛顿数学中心图书馆看书的时候,偶然发现了David Marr 的名著 Vision (1982版)原本,心情顿时极为复杂,想偷、想借而不还、想......不知为何,最后仅以拍照全文而结束了各种“狂想”,2015年12月18日谨以此文向David Marr 脱帽致敬:谢谢!
在工作和生活中,作为主体的人,总是通过五官从周围环境中获取信息,并根据这些信息来指导自己的行动。其中视觉最为重要,1967年,特瑞东拉提供以下研究结论:人的认识与人的器官的关系是:味觉1%;触觉1.15%;嗅觉3.15%;听觉11%;视觉83%。听觉和视觉工占94%。从记忆角度来讲,人们能记住阅读的10%;自己听到的20%;自己看到的30%。看和听共占50%。以信息论研究人的信道特性表明,假定触觉信道宽为1时,则听觉信道宽为100,视觉信道宽为10000。因此,如何发挥各渠道信息交换能力,特别是研究利用视觉信息,是促进认知的十分重要的课题。此外,大多数人工控制也都主要依赖视觉显示来获取与控制有关的输入信息。由于视觉的重要性,有关视觉系统的研究始终是科学界关注的问题之一,其中有关生物视觉机制与计算机视觉早就引起了神经病学、眼科学、生理学、解剖学以及电子、计算机领域专家们的极大兴趣,特别是近年来,世界各国对视觉系统的研究越来越多:NASA、哈佛、麻省、剑桥、牛津、东京工业大学等著名科研机构或大学都设有专门的视觉系统研究部门。
一、生物视觉的研究
视觉系统是一种复杂的自动控制系统,可以从控制论的角度来研究它。但是它不仅涉及眼的活动,而且和脑干、小脑、大脑等神经活动有关,即使从医学上讲也是一个跨学科的复杂系统。有关视觉系统的研究从研究方法上讲,有许多不同的方法来研究眼的不同侧面,有生理生化方面,也有系统与信息方面以及临床应用方面。下面本文将从形态学的角度对生物的视觉系统进行探讨。
1. 生物的视觉通路
图1为人类视觉通路示意图,物体在可见光的照射下经眼的光学系统在眼底视网膜上形成物像。视网膜上的感光细胞又将视网膜上接受的光能转换成神经冲动,经过视交叉部分交换神经纤维后,形成视束,传到中枢的许多部位,其中包括脑的外膝状体或外膝状核(LGN)、四叠体上丘(SC)、顶盖前区(AP)和视皮层(VC)等。上丘与眼动等视反射有关,顶盖前区与调节反射、瞳孔反射有关,外膝状体和视皮层都直接与视觉知觉有关。
神经节细胞轴突在外膝状体换神经元后,由外膝状体神经元直接经视放射到视皮层,这是视束的大部分纤维的去向,称为视觉第一通路。视束的小部分纤维走向内方,经上丘臂,到达上丘和顶盖前区。上丘浅层神经元再投射到丘脑枕(PT)换元后再投射到视皮层;上丘还有纤维直接投射到视皮层。由于这条通路不经外膝体,故称膝状体外通路或第二视通路。
由眼、外膝状体和视皮层解剖学结构中的视通路可以看到,眼、外膝状体与视皮层构成了对视觉信息处理的三个基本层次。进一步的分析表明,外膝状体与视皮层,尤其是视皮层还有更为复杂的分块分层结构,分块表明了视觉信息处理的并行性质,不同区域的神经细胞具有不同的功能;分层表明了视觉信息处理的串行性质。因此,生物视觉系统是一个串行与并行处理相结合的复杂系统。
2.感受野分层等级假设
视通路上各层次的神经细胞,由简单到复杂,它们所处理的信息,分别对应于视网膜上的一个局部区域,层次越深入,该区域就越大,这就是著名的感受野(RF)与感受野等级假设,感受野是支持视觉信息分层串行处理的最重要的生理学基础。
以信息处理的第一级为例,视网膜上的神经节细胞(GC),将感官细胞上接受到的光信号转换成电信号再由它的轴突传出,但每一个GC细胞只能接受视网膜上一个局部区域的信号,该区域就是GC的感受野,研究表明,GC感受野及其对光信号的转换作用可划分为以下几种:
(1)对空间亮度变化敏感的感受野,形状可用两个同心圆表示。圆形状的感受野按其对光信号的转换作用又可分为中心兴奋区、周边抑制区组成的On-中心型以及中心抑制区、周边兴奋区组成的Off-中心型 [2]。图2表示当视网膜上光信号为一边亮一边暗的具有一定对比度的信号时,感受野位于不同空间位置的GC的输出,只有当亮暗边缘线过同心圆中心时,GC的输出与感受野受到均匀光照时一样,设为E,而当边缘线位于同心圆的其他位置时,GC的输出分别高于或低于该平均输出E。如将输出看作实际输出减去平均输出E,则当亮暗边缘线过感受野同心圆中心时,输出为零。可见,由GC的输出与感受野的位置可以检测亮暗边缘线。这也是计算机视觉中轮廓、边缘等特征抽取的生物视觉基础。
(2)除具有上述响应特征及感受野的GC细胞外(这种GC细胞也称为x型细胞),还有一种y型细胞,它的响应不对亮度的空间变化敏感,而是对时间变化敏感,即当感受野圆形区域内的亮度随时间变化时,GC输出会增大或减少,y型细胞也可划分为On型或Off型,这种对局部亮度随时间变化敏感的性质是计算机视觉中物体运动分析的基础。
除了视觉信息处理第一层次的感受野外,对于更高层次,包括外膝状体细胞及初级视皮层(即视皮层的前几层),也发现了类似的性质,即每一个单个细胞只接受视网膜上的局部信息,但层次越高感受野越大,即信息处理是从局部到更大的区域的。
3. 视觉信息处理的多通道、多任务并行处理性质
感受野的等级假设与局部性质主要支持视觉信息处理的自上而下的分层次串行处理性质。但视觉系统的任务不是单一的,它要识别物体的形状与颜色,要得到三维物体的深入信息,要检测物体的方位与运动参数。另外,物体的空间与时间频率性质也有很大差异,例如较细的表面纹理表现了物体表面较高的空间频率特征;较快的运动,表现为图像较高的时间频率特征。神经生理学的研究表明,视通路的各个层次上存在着基本相互独立的并行通道,分别完成不同的视觉任务,下面是不同的并行通道:
(1)x, y 通道
除了视网膜神经节细胞GC的感受野有x, y之分,更高层次细胞的感受野也有x, y之分,即某一层次的神经细胞(如外膝状体的神经细胞)只接受来自x(或y)型GC细胞的信号,使它也具有x(或y)型的感受野,由于x,y型感受野的不同,x通道传递高空间分辨率的、时间上变化慢速的信息与颜色信息,而y通道传递低空间分辨率的、高时间变化频率的信息。
(2)空间与时间频率通道
虽然x,y型细胞分别对具有空间频率或时间频率的信息敏感,心理物理学实验证明,外膝状体上的某一个神经细胞并不对所有频率的信息敏感,而是对某一频段的信息呈现较强的反应,在视觉皮层也发现了类似的证据,即皮层的某一部分只对某一定频率的信号敏感。这些实验证据表明,在视通路中存在处理不同频道信号的独立通道。
(3)颜色信息通道
首先在视网膜上就存在不同的光感受细胞,即锥状细胞与杆状细胞,其中杆状细胞对颜色不敏感,而锥状细胞又分为对不同光谱(红、绿、蓝)敏感的三种细胞,对外膝状体与视觉皮层17区的分析也表明,它们都有专门的区域从事颜色信息的处理与识别。
(4)左右眼信息通道与立体视觉
在图1的视觉信息通道简图中可见,眼睛、外膝状体与视觉皮层都有左右两侧,分析表明,左右两侧的神经细胞分别处理由左右两眼半侧来的信息,也就是说,每一个眼睛的左右侧视野的信息是交叉地分别投射到左右外膝状体与视皮层的。视皮层处理来自两眼的信息得到双眼视差信息是立体视觉的基础,即只有比较来自两眼的信息,才能使我们有深度感。近来的研究表明,直到视皮层的17,18,19区,还存在独立处理不同视差的并行通道。
(5)空间方位信息通道
早期对视觉信息处理的研究认为,视皮层细胞对空间几何元素(如直线)的方位敏感,阮迪云[Ruan 1992]等对外膝体细胞的研究表明,这种方位敏感性也存在于外膝状体细胞,即具有相似最优方位敏感的细胞在外膝体层次已经聚集在一起。可见在视皮层处理之前,外膝体已经对方位信息进行了组织,在视觉通路中存在着处理方位信息的通路。
(6)视皮层对形状、颜色、运动与深度信息的并行处理
对视皮层17至更高层次的研究表明,对物体的形状、颜色、运动与深度等不同视觉信息的处理已经明显分离开,最近的研究成果已经提供了两类确定的视信息处理流向,这两类信息处理流在V1区即已发出,且可以跟踪好几个等级。第一条信息通路包括MT和MST区,主要功能涉及视运动功能分析;第二条通路包括V4、VP和IT(下颞皮层),主要涉及颜色和形状信息处理。
4.视觉皮层间的反馈和整合作用
一般而言,至少存在着35个以上的大脑皮层区域是直接地或紧密地与视觉信息处理有关,它们既平行又串行处理着各种不同视觉信息。视皮层所独有的,其它皮层细胞也是如此。通过研究,迄今为止尚未发现一个单独的皮层区域只接受所有的其他视皮层区域来的信息。以英国科学家Zeki为代表,提出了关于视觉皮层整合作用的“多级同步整合作用”假说,即在视皮层的整合作用包括三个不必在时间上连续的过程:(1)放大视觉感受野,并在整个视野内收集信息;(2)与前一个过程同时,产生更加复杂和特殊的性质;(3)将代表不同的视觉功能的视觉皮层的信息统一在一起,但并不要求信号都走到同一个皮层区来,而可能是空间上分离的,时间上却是同步的。
二.计算机视觉的研究
80年代初,David Marr [Marr 1982]首次从信息处理的角度综合了图像处理、心理物理学、神经生理学及临床神经病学的研究成果,提出了第一个较为完善的视觉系统框架,这一框架虽然在细节上甚至在主导思想上还存在不完备的方面,许多方面还有很多争议,但至今仍是目前计算机视觉研究的基本框架。计算机视觉的研究目标及任务是把输入的二维数字图像概括成抽象的符号描述或参数模型表示,不但能够真实地反映客观世界物体的空间几何信息,包括它的形状、位置、姿态、运动等,而且还能对它们进行存储、识别与处理。
1. 计算机视觉系统研究的层次
Marr从信息处理系统的角度出发,认为对此系统的研究应分为三个层次:即计算理论层次、表达与算法层次、硬件实现层次。
目前计算机视觉的研究工作主要在计算理论、表达与算法这两个层次上,对于硬件实现,当前只有较成熟的部分,如低层次处理的去噪声,边缘抽取等;对简单的二维物体识别及简单场景下的视觉方法,已有专用芯片或其它并行处理体系结构方面的研究与试验产品;从系统上构造一般的视觉系统,虽有些尝试,但并不成功。
2. 视觉信息处理的三个阶段表达与算法
Marr从视觉计算理论出发,将系统分为自上而下的三个阶段,即视觉信息是从最初的原始数据(二维图像数据)到最终对三维表达经历了三个阶段的处理。第一阶段构成所谓“要素图”或“基元图”,基元图由二维图像中的边缘点、直线段、曲线、顶点、纹理等基本几何元素或特征组成;第二阶段,Marr称为环境的2.5维描述,即部分的、不完整的三维信息描述,用“计算”的语言来讲就是重建三维物体在观察者为中心的坐标系下的三维形状与位置。这一阶段中存在许多并行的相对独立的模块,如立体视觉、运动分析、由灰度恢复表面形状等不同处理单元。第三阶段,当观察者从不同角度去观察物体,其形状都是不完整的,不能设想,人脑中存有同一物体从所有可能的观察角度看到的物体形象,以用来与所谓的物体的2.5维描述进行匹配与比较,因此,2.5维描述必须进一步处理以得到物体的完整三维描述,而且必须是物体本身某一固定坐标系下的描述,这一阶段被称为第三阶段或三维阶段。
第一阶段与第二阶段被称为视觉的低层次处理,也有人将第一阶段称为早期视觉,第二阶段称为中期阶段。
3. 计算机视觉系统的基本体系结构与研究问题
(1) 计算机视觉系统的基本体系结构
计算机视觉系统的基本体系结构可由图3所示:
其中Shape from X表示由某些图像特征(如边缘点、直线、曲线、纹理、物体轮廓线、序列图像对应特征、图像灰度、颜色等)恢复物体三维形状。
(2) 计算机视觉系统研究存在的问题
80年代至今,世界各国的研究者们按照Marr提出的基本理论框架,对计算机视觉系统的各个研究层次及各个阶段的各个模块,进行了大量的研究,并提出了相应的解决方法,但总的来讲,这些方法都存在着一些问题,或缺乏通用性,或抗干扰能力差,或存在多解性,究其因,不外乎两点:一是计算机视觉是一个逆问题,即输入图像为二维图像的灰度,它是三维物体几何特征、光照、物体材料表面性质、物体的颜色、摄象机参数等许多因素的函数,由灰度反推以上各种参数是逆问题,而这些问题大都是非线形的,问题的解不具有唯一性,而且对噪声或离散化引起的误差都极其敏感;另一个原因是Marr的视觉系统框架是一个自上而下的、模块的、单向的、数据驱动型的结构,神经生理学的深入研究表明,这种结构与人的视觉系统还有很大差距,人的视觉系统上下各层次之间、各模块之间存在着更为复杂的相互作用,并且由眼动等现象可知,生物视觉系统的认知过程是一种与外界交互作用的有目的、主动性过程,而不仅仅是一种被动式的反应,这些发展都突破了Marr的视觉理论框架。
三. 生物视觉与计算机视觉的比较研究
虽然计算机视觉的发展得益于神经生理学、心理学与认知科学对生物视觉的系统研究,但计算机视觉计算理论与算法的发展却相对独立,并不刻意去“仿真”生物视觉。主要原因是:1.目前,生物视觉在更高层次上的机理尚未搞清楚,对计算机视觉的发展指导意义不大;2.有不少有关学者认为,只要从信息转换的角度真正理解了视觉信息处理过程并发展出一套信息处理的计算理论,用哪种体系结构去实现它是无关紧要的;3.一般而言,计算机视觉系统要观察的环境相对比较简单。
生物视觉系统在硬件实现层次上是神经网络,因而与计算机视觉有很大的差别,但如果两者在计算理论层次上是相同的,则本质上应没有太大区别。传统的思想是,计算机视觉信息处理的理论研究应侧重计算理论、表达与算法,而神经网络则属于实现层次,对视觉不具有本质上的重要性。然而有两个原因正促使这种看法的改变:一是硬件实现方式很可能反过来影响计算理论与表达;二是由于条件的限制,目前的人工神经网络也只是真正神经网络的一种“过分简化”,但确有一种新的自适应、自学习机制存在,需要进一步研究。
比较人的视觉系统与计算机视觉系统的工作过程,在低层处理阶段,图像中物体受到退化、噪声、模糊、阴影等影响,现有低层处理算法很难把物体在图像中的区域截然分开。而人的视觉却具有相当强的区分能力。第二个困难是在平面图像中发现立体信息,人能很快地辨别出图像的前后关系,而要计算机做到这一点,光凭图像上的信息是很难甚至不可能做到的。
计算机视觉系统现在一般分为两大类:工业视觉系统和通用型视觉系统。前者已在实际工作中得到大量的应用,各类系统的技术层次、指标差异很大,一般是功能相对专门化,使用条件和环境有一定限制。后者虽有实验室研究,但多侧重于图象识别和景物分析(包括三维运动)等,而复杂的生物视觉系统的行为功能要用工程技术加以实现,还面临许多困难,难度较大。
从目前对生物视觉的研究现状来看,视觉信息处理是一个串行与并行相结合的复杂视觉信息处理过程,到目前为止搞清楚的仅仅是其中的极小一部分,而且,从信息处理的角度看,对大多数处理单元我们仅仅知道非常浅的知识,即只知道这个单元对某种信息“敏感”,而信息是如何表征的,如何变换的,则仍不清楚,尤其是在较高层信息的处理,关于串行与并行处理进入高级皮层后,信息是如何综合等方面。
总之,由于当前生物视觉在更高层次上的机理研究尚未有突破性进展,生物视觉系统与计算机视觉系统的研究从总体上是处于“独立自主,各自为政”的发展阶段;但是从未来的发展趋势来看,一旦人们对于生物视觉系统中的信息转换及处理机制完成由定性分析到定量计算的跃进,那么计算机视觉系统的研究将会逐步地与生物视觉系统的研究融合在一起。
结束语
视觉是人类和一些动物的基本功能,也是人们认识世界、了解客观世界的主要感知手段,同时也是了解脑的认知功能的突破口。视觉系统的研究目的是感知视觉世界的空间存在,了解周围视觉世界的空间结构、特点、组成以及它们的空间运动变化规律;从信息处理角度来说,计算机视觉系统的任务是把输入的二维数字图像概括成抽象的符号描述或参数模型表示,以真实反应客观世界中物体的空间信息。从根本上说,生物视觉的研究是计算机视觉研究的基础,但由于对生物视觉的研究尚未出现突破性进展等原因,造成了计算机视觉远远没有达到期待的目标,其中一些关键性技术尚未得到解决。但随着神经生理学、认知心理学、物理学、数学、图像处理、模式识别、人工智能等相关学科的迅速发展,无论是生物视觉(尤其是人的视觉)还是计算机视觉的研究都将会出现实质性、革命性进展,进而将极大的改变人们的生活、工作方式。不过,这一切还有待时间来进行验证。
左边是1982年原版 右边是MIT后出的新版