STFT:解决音频-视频零样本学习 (ZSL) 中的挑战-1 方法

时间：2024-07-14 10:21:21

STFT的架构由四个主要部分组成：空间-时间尖峰神经网络（SNN）、潜在语义推理模块、时序-语义Tucker融合和联合推理模块。在训练阶段，训练集由标记的嵌入向量组成，目标是学习一个投影函数，将音频和视觉特征映射到类别级文本嵌入。在测试阶段，使用相同的函数将未见过的测试样本投影到嵌入空间。

1.1 空间-时间尖峰神经网络（SNN）

卷积 SNN 块：使用卷积操作和 LIF 模型构建 SNN 网络，每个 SNN 块包含卷积层和 LIF 层。
全局-局部池化 (GLP)：将最大池化和平均池化操作相结合，提取全局和局部特征，并指导 LIF 神经元的输入特征分布。
时间步长因子 (TSF)：动态调整不同时间步长 SNN 输出的权重，使模型能够有效地利用时间信息并编码不同时间尺度的相关特征。
动态阈值调整：根据当前 SNN 输出和 GLP 的信息含量动态调整 LIF 神经元的阈值，从而减少脉冲噪声并提高模型的鲁棒性。

1.2 潜在语义推理模块

音频和视觉编码器：使用预训练的 SeLaVi 模型提取音频和视觉特征，并进行进一步的特征提取和降维。
潜在语义推理模块：引入潜在知识组合器 (LKC) 来动态更新和融合音频和视觉特征的潜在语义信息，从而获得更鲁棒的跨模态特征表示。
LKC 通过学习一组潜在知识槽来捕获不同模态之间的潜在语义特征，并使用门控函数选择性地保留融合特征。
LKC 会根据输入向量和之前的潜在知识槽 Kt-1 动态更新，并通过自注意力机制进一步推断音频和视觉特征之间的内在关系。

1.3 时序-语义 Tucker 融合

特征投影：将音频和视觉特征分别投影到嵌入向量，并进行二线性交互。
Tucker 分解：将二线性交互后的特征张量分解为多个因子矩阵，以降低模型参数数量并提高计算效率。
多尺度融合：利用 Tucker 分解后的因子矩阵进行多尺度融合，同时保留二阶交互信息。

1.4 联合推理模块

跨模态 Transformer：使用共享权重的跨模态 Transformer 进一步推理不同模态之间的特征对应关系，并捕获互补信息。
投影和重建层：将联合音频-视觉特征投影到与文本特征相同的嵌入空间，并进行重建以保留相关信息。

1.5 训练策略

STFT使用Nvidia V100S GPU进行训练。音频和视觉嵌入是使用预训练的SeLaVi提取的。设置了特定的参数，并选择了Adam作为训练优化器。STFT训练了60个周期，学习率为0.0001。为了更有效地更新参数，STFT使用了三元组损失、投影损失和重建损失的组合。

相关文章

STFT:解决音频-视频零样本学习 (ZSL) 中的挑战-1 方法

