事件相机的数据处理模式
1、Events by Events
依赖模型:依赖于附加信息(通常是“外观”信息,例如灰度图像或场景图)的可用性,这些信息可以由过去的事件或附加的传感器(如获得一个半稠密的深度图)提供。 然后,将每个传入事件与此类信息进行比较,由此产生的不匹配为更新系统状态提供了创新。概率滤波器是这类方法的主要框架,因为它能自然地(i)处理异步数据,从而提供最小的处理延迟,保留传感器的特征,并且(ii)并集来自多个小来源(例如事件)的信息。
无模型:数据驱动形式(即机器学习),通常采用多层神经网络(无论是否尖峰)的形式,其中包含许多必须从事件数据中得出的参数。经过无监督学习训练的网络通常充当分类器(例如SVM)的特征提取器,分类器仍需要一些标签数据进行训练。 如果有足够的标签数据可用,则可以使用诸如反向传播之类的监督学习方法来训练网络,而无需单独的分类器。 许多方法在训练过程中使用事件组(在帧上进行深度学习),然后将训练后的网络转换为尖峰神经网络(SNN),该网络逐个事件地处理数据。
2、Groups of Events
依赖模型:单个事件不能提供足够的信息,并且易受噪声影响,因此必须一起处理多个事件以针对所考虑的问题产生的信噪比。此方法分为两类:(i)量化事件的时间信息并积累成帧,重新利用传统的基于图像的计算机视觉算法解决问题(ii)利用单个事件的精细时间信息进行估计的方法,往往偏离传统的计算机视觉算法。
对事件的处理取决于它的表示形式,一些采用点集方法,根据事件的时空坐标的几何处理进行推理。另一些采用时间曲面(上一个事件时间戳的像素图),事件直方图等。还有一些将两者结合起来:将事件变形为点集以计算张量以进行进一步分析。
无模型(深度学习):这些方法的主要区别在于输入(事件)的表示形式和训练过程中优化的损失函数。经典的深度学习管道使用张量作为输入,因此必须将事件转换为这种密集的多通道表示。已有的表示方式如:事件的像素级直方图,最新时间戳的映射(时间曲面) ,或插值体素网格,可以更好地保留时间间隔内事件的时空性质。现有的任务大多数采用的网络架构都具有如图所示的encoder-decoder结构。这种结构仅允许使用卷积,从而使网络权重的数量最小化。 此外,可以在解码器的每个空间尺度上应用损耗函数。
:----------------------------------------: encoder-decoder结构
3、生物启发的视觉处理
Spiking Neural Network(SNN):生物感知原理和计算原语不仅驱动事件相机像素的设计,而且驱动某些用于处理事件的算法。神经元从视觉空间的一小部分区域(感受野)接收输入尖峰(“事件”),当状态超过阈值时,神经元会修改其内部状态(膜电位)并产生输出尖峰(动作电位)。 神经元以分层方式连接,形成SNN。 尖峰可能由事件摄像机的像素或SNN的神经元产生。 信息沿着层次结构传播,从事件相机像素到SNN的第一层,再到更高(更深)的层。
[1]:Gallego G , Delbruck T , Orchard G , et al. Event-based Vision: A Survey[J]. 2019.