STFT:解决音频-视频零样本学习 (ZSL) 中的挑战-1 方法

时间:2024-07-14 10:21:21

STFT的架构由四个主要部分组成:空间-时间尖峰神经网络(SNN)、潜在语义推理模块、时序-语义Tucker融合和联合推理模块。在训练阶段,训练集由标记的嵌入向量组成,目标是学习一个投影函数,将音频和视觉特征映射到类别级文本嵌入。在测试阶段,使用相同的函数将未见过的测试样本投影到嵌入空间。

1.1  空间-时间尖峰神经网络(SNN)

  • 卷积 SNN 块: 使用卷积操作和 LIF 模型构建 SNN 网络,每个 SNN 块包含卷积层和 LIF 层。
  • 全局-局部池化 (GLP): 将最大池化和平均池化操作相结合,提取全局和局部特征,并指导 LIF 神经元的输入特征分布。
  • 时间步长因子 (TSF): 动态调整不同时间步长 SNN 输出的权重,使模型能够有效地利用时间信息并编码不同时间尺度的相关特征。
  • 动态阈值调整: 根据当前 SNN 输出和 GLP 的信息含量动态调整 LIF 神经元的阈值,从而减少脉冲噪声并提高模型的鲁棒性。

1.2 潜在语义推理模块

  • 音频和视觉编码器: 使用预训练的 SeLaVi 模型提取音频和视觉特征,并进行进一步的特征提取和降维。
  • 潜在语义推理模块: 引入潜在知识组合器 (LKC) 来动态更新和融合音频和视觉特征的潜在语义信息,从而获得更鲁棒的跨模态特征表示。
  • LKC 通过学习一组潜在知识槽来捕获不同模态之间的潜在语义特征,并使用门控函数选择性地保留融合特征。
  • LKC 会根据输入向量和之前的潜在知识槽 Kt-1 动态更新,并通过自注意力机制进一步推断音频和视觉特征之间的内在关系。

1.3 时序-语义 Tucker 融合

  • 特征投影: 将音频和视觉特征分别投影到嵌入向量,并进行二线性交互。
  • Tucker 分解: 将二线性交互后的特征张量分解为多个因子矩阵,以降低模型参数数量并提高计算效率。
  • 多尺度融合: 利用 Tucker 分解后的因子矩阵进行多尺度融合,同时保留二阶交互信息。

1.4 联合推理模块

  • 跨模态 Transformer: 使用共享权重的跨模态 Transformer 进一步推理不同模态之间的特征对应关系,并捕获互补信息。
  • 投影和重建层: 将联合音频-视觉特征投影到与文本特征相同的嵌入空间,并进行重建以保留相关信息。

1.5 训练策略

STFT使用Nvidia V100S GPU进行训练。音频和视觉嵌入是使用预训练的SeLaVi提取的。设置了特定的参数,并选择了Adam作为训练优化器。STFT训练了60个周期,学习率为0.0001。为了更有效地更新参数,STFT使用了三元组损失、投影损失和重建损失的组合。