论文阅读-Event-based Visible and Infrared Fusion via Multi-task Collaboration-二、方法

2.1 问题定义

假设有一个连续的事件流 $\varepsilon$ ，它的时间范围在区间 $t_0,t_1]$ 内，在这段事件流中存在一组运动模糊帧段 $I_{ir}=\{I_i|i=1,2,...,M\}$ 。每个 $I_i$ 都有一个曝光时间窗口 $[t_i,t_i+\delta]\in[t_0,t_1]$ ,其中 $\delta$ 是红外相机的曝光时间长度。 $E V I F$ 的目标是为每个红外帧 $I_{ir}^i$ 产生清晰的红外-可见光融合图像 $I^i_f$ 。这项任务涉及事件流 $\varepsilon$ 中提取同步的可见光纹理和运动线索，并将其与 $I_{ir}$ 集成，以创建对场景的清晰、全面的描述。

2.2 框架描述

图2展示本文提出的EVIF系统的整体框架。该框架联合完成三个任务（纹理重建、红外图像去模糊以及红外-可见光图像融合），每个任务都是通过特定的网络来实现。基于事件的纹理重建和图像去模糊在其他工作中已经进行了很好的研究。本篇工作采用E2VID 和EFNet作为任务相关的网络，重点放在如何协调他们之间的协同作用。首先，作者设计了一种跨任务事件增强的方法，旨在有效利用重建任务中提取到的有用的纹理特征。然后使用这些特征来辅助红外图像去模糊。最后从前两个任务中编码的特征被发送到融合网络，该网络采用双层最小-组大互信息优化机制来实现稳健的融合。

对于每个输入的模糊的红外图像 $I_{ir}^i$ ，在曝光时间窗口内捕获的事件片段 $\epsilon_{t_i}^{t_I+\delta}$ 被视为输入事件输入。在去模糊网络中，直接将 $\epsilon_{t_i}^{t_I+\delta}$ 作为输入，而纹理重建网络则将 $\epsilon_{t_i}^{t_I+\delta}$ 按事件分成 $K$ 个片段处理，从而得到一组K个事件特征和重建的可见光图像。在融合过程中，仅使用中间第 $\frac{K+1}{2}$ 个可见光图像。
在这里插入图片描述

2.3 跨任务事件增强

由于事件的去模糊网络的主要目的是从事件中揭示潜在的运动线索，因此事件中固有的纹理特征可能无法在去模糊网络中得到充分利用。考虑到这一点，作者提出了一个跨任务的事件增强方法。它旨在增强基于事件的红外图像去模糊网络中的事件纹理特征，主要方法是利用可见光纹理重建模型中学习到纹理特征。

跨任务事件增强模块的结构如图3所示，给定来自事件重建网络的 $K$ 个事件特征 ${F_{rec}^i|i=1,2,...,K\}$ ,。为总结每个 $F_{rec}^i$ 内的空间纹理，并同时考虑它们之间的相关性，使用了两个ConvGRU以双向递归的方式从 $F_{rec}^i$ 中提取空间-时间特征：
$S_f^{i+1},F_f^{i+1}=ConvGRU_1(S_f^i,F_{rec}^i) \\ S_b^{i-1},F_b^{i-1}=ConvGRU_2(S_b^i,F_{rec}^i)$
其中 $S_f^i$ 和 $S_b^i$ 是前向和后向隐藏状态， $F_f^i$ 和 $F_b^i$ 是GRUs的输出特征。然后沿着通道维度堆叠端点特征 $F_f^K$ 和 $F_b^1$ ,形成一个统一的特征 $F_{rec}'$ ,它包含了丰富的纹理信息。

在得到 $F_{rec}'$ 之后，下一步是将 $F_{rec}'$ 中的纹理信息合并到去模糊网络的事件特征 $F_{de}$ 中。考虑到直接将 $F_{rec}'$ 与 $F_{de}$ 直接相加或相乘或concat可能会破坏原始 $F_{de}$ 中的运动线索，因为这两个特征对应着不同的任务，它们关注的重点也不同。为解决这个问题，作者设计了一个跨任务通道注意力(CTCA)来合并 $F_{rec}'$ 和 $F_{de}$ 。与从单一输入生成Q、K、V不同，CTCA从 $F_{de}$ 计算查询特征 $F_{de}^Q$ , 而键特征 $F^K_{rec}$ 和值特征 $F^V_{rec}$ 都是从 $F_{rec}'$ 中获得。所有三个特征都被重塑成大小 $(hw)\times c$ 。然后沿通道维度执行注意力计算：
$F_{attn}=F_{rec}^V \ Softmax(\frac{(F^Q_{de})^TF_{rec}^K}{\sqrt{hw}})$
最终， $F_{attn}$ 和 $F_{de}$ 被添加以获得增强的事件特征 $F_{en}$ , 用于去模糊网络中的进一步处理。
在这里插入图片描述
创新点1：使用了一个双向ConvGRU操作，GRU的特点是具有记忆，也即在 $F_f^K$ 中保留最新输入信息 $F_{rec}^K$ 的同时也融入了前K-1个特征。可以同时考虑过去和未来的时间信息，增强空间特征提取能力，优化特征融合。
创新点2：设计了一个CTCA的跨任务通道注意力。它通过生成查询、键和值特征进行注意力计算，避免了不同任务特征分布差异导致的原始信息丢失问题，进而更有效的融合特征。

2.4 通过互信息优化的融合

可见光和红外图像融合的目标是保留红外模态中捕获的显著目标的同时，获取包含丰富可见光纹理场景细节的图像。因此有效利用两种模态中包含的互补信息是确定融合过程性能的关键因素。必须使用合适的策略来平衡特征的独特性和完整性。

一方面。理想的特征融合应该是在每种模态中突出不同的信息，同时减少跨模态共有的冗余信息。
另一方面，融合结果中必须保留原始的模态信息，以避免潜在的信息丢失。

在本文中，作者采用最小最大互信息的方式来优化两种模态特征之间的互信息。
在这里插入图片描述
如图2所示，在获得重建的可见光图像和去模糊的清晰的红外图像后，分别将这两个图像输入卷积层，并将卷积层输出的特征与之前任务网络的解码器输出连接起来。连接后的结果包括浅层的特征表示和深层表示，分别产生可见光和红外的可靠特征 $F_{vis}$ 和 $F_{ir}$ 。然后对i这两个模态特征施加互信息优化，以鼓励它们进行互补学习。

具体来说，将得到的特征 $F_{vis}$ 和 $F_{ir}$ 传进Trans Block，构建具有长距离空间依赖的特征 $F_{vis}'$ 和 $F_{ir}'$ 。然后，对这两个模态的特征施加互信息最小化，以减少冗余并突出模态的不同信息。如图4所示， $F_{vis}'$ 和 $F_{ir}'$ 通过Apaptive pool将其拉成以为向量，通过MLP层获得 $z_{vis}'$ 和 $z_{ir}'$ 。它们之间的互信息表示为：
$MI(z_{vis}',z_{ir}')=H(z'_{vis})+H(z_{ir}')-H(z_{vis}',z_{ir}'),$
其中 $H(z_{vis})$ 和 $H(z_{ir}')$ 表示 $z'_vis$ 和 $z_{ir}'$ 的边缘熵 , $\hat{H}(z'_{ir},z'_{vis})$ 是从 $z'_{vis}$ 到 $z_{ir}'$ 的联合熵。为了计算 $MI(z_{vis}',z_{ir}')$ ，作者使用KL散度来计算边缘熵，并通过互信息最小化损失：
$L_{MI}(z_{vis}',z_{ir}')=\hat{H}(z_{vis}',z_{ir}')+\hat{H}(z_{ir}',z_{vis}')-(KL(z_{vis}'||z_{ir}')+KL(z_{ir}'||z_{vis}'))$
其中 $\hat{H}(z_{ir}',z_{vis}')$ 是从 $z_{vis}'$ 到 $z_{ir}'$ 的交叉熵。

通过最小化 $F_{vis}'$ 和 $F_{ir}'$ 之间的互信息，可以突出不同的模态特征。然后我们将 $F_{vis}'$ 和 $F_{ir}'$ 连接起来，并使用另一个转换器块融合它们以获得 $F_f$ 。然后，仅最小化互信息可能会导致潜在的信息丢失，因为网络会为达到较低的 $L_{MI}$ 丢弃一些重要的特征。为缓解该问题，需要在 $F_f$ 和原始模态特征 $F_{vis}$ 和 $F_{ir}$ 之间施加互信息最大化。如图4所示，分别从 $F_f, F_{vis}和F_{ir}$ 获得三个潜向量 $z_f, z_{vis}和z_{ir}$ 。为实现最大互信息，将每个 ${z_{vis},z_f\}$ 视为正样本，而将同一批次中的其他样本视为负样本：
$L_{NCE}^{vis}=-\sum_{i=1}^N log\frac{exp(z_{f_i}^Tz_{vis_i})}{\sum_{j=1, j\neq i}^Nexp(z^T_{f_i}z_{vis_j})}$
其中N表示批量大小， $z_{vis_i}$ 和 $z_{f_i}$ 表示批次中第i个对应嵌入。
（那么我们该怎么理解这个公式呢？具体来说，对于每个样本 $i$ , 计算其正样本（也就是自身样本）的相似度得分，即 $exp(z_{f_i}^Tz_{vis_i})$ , 与负样本（即批次中除自身外的其他所有样本）的相似度得分, 也即 $\sum_{j=1, j\neq i}^Nexp(z^T_{f_i}z_{vis_j})$ 。这个方程的目标是实现最小化，这相当于增加正样本间的相似度，同时减少负样本的相似度，从而达到最大化互信息的目的。）
红外模态的 $L_{NCE}^{ir}$ 的定义类似。值得注意的是，最小化损失 $L_{MI}$ 和最大化损失 $L_{NCE}$ 是不同的，因为最小化损失通常是通过调整最小化界限而不是最小化本身来完成的，因此不能用 $L_{MI}$ 来代替 $L_{NCE}$ 。

这种通过优化最小最大互信息的方式确保了融合特征捕获两种模态的基本特征，并能够平衡它们的唯一性和完整性。

2.5 进度式训练

总的来说，EVIF的训练遵循三阶段方法，三个任务依次逐步学习。在每个阶段，保持前几个阶段的训练任务与新任务一起进行。对于可见光纹理重建和去模糊任务，使用L2损失训练损失。在纹理细节网络重建完成后，进一步去训练去模糊网络，并进行夸任务事件增强。最后，训练融合网络，训练网络的损失函数如下所示：
$L_{fuse}=\gamma_1L_{SSIM}+\gamma_2L_{MI}+\gamma(L_{NCE}^{vis}+L_{NCE}^{ir})$
$L_{SSIM}$ 是融合图像与重建任务和去模糊任务之间的SSIM损失。

秒客网