2021：医学视觉问答的多元模型量化Multiple Meta-modal Quantifying for Medical Visual Question Answering

摘要

转移学习是医学VQA中提取特征和战胜数据限制的重要一步，但现有的大多VQA模型依赖外部数据转移学习，而数据集内的元数据就不能充分利用。本文我们提出一种新的多元模型量化方法，能够有效学习元注释，并利用有意义的特征进行医学VQA任务。该方法通过自动注释增加元数据，处理噪声标签和输出元模型，这位医学VQA任务提供了鲁棒的特征。在两个公共医学VQA数据集上的实验结果表明，相比于其他最先进的方法，我们的方法取得了更好的精度，并且不需要外部数据训练元模型。

原文

代码

一、介绍

提取图像特征是医学VQA框架中最重要的步骤之一，该框架能够输出基本信息来预测答案。转移学习在预训练的深度学习模型中是初始化特征提取过程的一种流行方法，该模型在大规模标签数据集如ImageNet上训练。由于ImageNet图像和医学图像的差异，微调还不够，最近Model Agnostic Meta-Learning(MAML)被提出，通过学习能够快速适应视觉概念的元权值来解决上述问题，但是MAML受到医学数据集中图像的元注释阶段的严重影响。医学图像的转移学习更具挑战性，原因在于：（1）以非监督方式对图像标签时可能出现噪声标签；（2）高级语义标签造成学习过程中的不确定性；（3）很难将此过程扩展到医学数据集的无标签图像。

本文我们引入一种新的多元模型量化过程（MMQ）以解决MAML的问题。MML的设计：（1）通过自动标注有效增加元数据；（2）通过利用meta-agnostic过程中预测分数的不确定性来处理训练阶段的噪声标签；（3）输出包含下游医学VQA任务的鲁棒特征的元模型。与最近的医学VQA元学习方法[26]相比，MMQ并没有使用数据集外的图像，在两个医学VQA数据集上取得了优越的准确性。

二、相关工作

医学视觉问答

医学视觉问答继承VQA在通用图像上的技术。此外，在[18,45,28,17]中，作者使用转移学习提取医学图像特征。最近，引入直接解决医学VQA的方法，包括推理、诊断模型行为、多模态融合、专用框架设计和处理一场问题的生成模型。

元学习

元学习旨在处理学习新任务时的数据限制，有三种常见方法：基于模型、基于指标和基于优化。MAML是基于优化的，帮助学习一个元模型，然后使其快速适应其他工作。[26]中作者使用MAML战胜医学VQA中数据限制问题，但是在训练期间需要外部数据。

三、方法

3.1 方法概述

我们的方法包含两部分：我们提出的多元模型量化（MMQ-图1）和一个VQA框架（图2），该框架用于集成从MMQ输出的元模型。这些模型有望具有相互鲁棒性，并在模型不可知任务的推理阶段具有较高的准确性，VQA框架旨在利用从候选的元模型中提取的不同特征，然后生成预测的答案。

3.2 多个元模型的量化

图1中的多元模型量化包含三个模块：（1）Meta-training:从提取的图像特征中训练一个特定的元模型通过遵循MAML用在医学VQA任务中；（2）Data refinement:通过自动注释增加训练数据，并利用预测分数的不确定性处理噪声标签；（3）Meta-quantifying:选择相互鲁棒且在模型不可知任务的推理阶段有高精度的元模型。

（1）Meta-training：通常跟随MAML进行元训练，设fθ为分类元模型，而{θ'0，θ'1，…θ'x}是x给定任务Ti及其相关数据集{Ditr，Dival}的分类模型的适应参数列表。对于每次迭代，x任务都用每个任务的y个例子进行采样，然后计算分类损失LTi的梯度下降∇θLTi(fθ(Ditr))，更新的适应参数如下：

在每次迭代结束时，元模型参数θ在所有采样任务的验证集中被更新，以学习广义特征，如：

与MAML[6]只选择一个元模型不同，我们开发了refinement和meta-quantifying步骤来选择高质量的元模型，以便之后转移学习医学VQA框架。

（2）Data refinement：在完成元训练阶段后，元模型的权重被用于细化数据集。该模块旨在扩展用于元训练的元数据池，并删除预计难以学习或有噪声标签的样本。

（3）Mete-quantifying：本模块旨在识别对医学VQA任务有用的元模型，候选元模型应在验证过程实现高性能，以及它的特征应不同于来自其他候选模型的特征。

为实现此目标，我们设计一个保险分数SF：

其中SP是当前元模型对真相标签的预测分数；Fc是从上述元模型中提取的特征；Ft是从元模型Θ列表的第t个模型中提取的特征；余弦用于两个特征之间的相似性检查。

由于在地面真相标签上的预测分数SP和不同的分数是协同变量，因此融合分数SF也与上述两个分数都是协同变量的。这意味着SF越大，VQA任务选择此模型的可能性越高。

3.3 将量化的元模型集成到医学VQA框架中

每个输入图像都通过n个量化的元模型产生n个向量，这些向量相连接以形成增强的图像特征，在图2中表示为fv，由于这个向量包含从不同的高性能元模型中提取的多个特征，并且每个模型都有不同的视图，因此VQA框架受到偏差问题的影响预计会较小。图像特征和问题嵌入被输入到一个注意力机制中，以产生一个共同的表示fa，特征fa作为分类器（在预定义的答案类的集合上）的输入。我们使用答案分类任务的交叉熵损失训练该模型，然后整个VQA框架以端到端的方式微调。

四、实验

4.1 数据集

使用VQA-RAD和PathVQA，VQA-RAD包含315个图像和3515个相应的问题；PathVQA包含32799个问题答案对，该问题答案对是从两本病理学课本中手机的1670张病理学图像，以及从PEIR数字图书馆中手机的3328张病理学图像。

4.2 实验细节

（1）Meta-training:与[26]类似，我们首先为训练MAML创建了元注释。对于VQA-RAD数据集，我们重新使用由[26]创建的元注释，我们在实验中没有使用他们收集的额外数据。对于PathVQA数据集，我们通过根据身体部位、图像类型和器官将所有训练图像分类为31个类来创建元注释。

（2）Data refinement:然后，使用从元训练步骤输出的元模型更新数据池，更新后的数据池作元训练步骤的输入，以输出另一个元模型。这个循环最多可应用7次，以输出7个不同的元模型。

（3）Meta-quantifying:最多有4种具有高性能的模型应用于VQA训练。

（4）VQA训练：在从元量化模块中选择候选元模型后，我们使用它们训练过的权值来初始化VQA框架中的图像特征提取组件。然后，我们使用VQA训练集来微调整个VQA模型，每个元模型的输出向量在PathVQA中设置为32-d，在VQA-RAD数据集中设置为64-d。我们使用50%的元注释图像来训练元模型。

（5）Baseline:将我们的MMQ结果与最近的医学VQA方法进行了比较：MAML[6]、MEVF[26]、使用VGG-16[10]的堆叠注意网络(StAN)，使用Faster-RCNN[10]的双线性注意网络(Bian)。在MAML、MEVF和MMQ中使用两种注意方法SAN[43]和BAN[15]。STAN和BiAN只使用来自ImageNet数据集的预训练模型，MEVF[26]使用额外收集的数据来训练他们的元模型，而我们的MMQ仅依赖于来自数据集中的图像。

4.3 结果

MMQ的性能显著优于其他元学习方法，此外，MMQ在使用不同的注意力机制时性能也是稳定的。结果表明，我们提出的MMQ从输入图像中学习基本的代表性信息，并有效利用元模型的特征来处理医学VQA数据集中有挑战的问题。

4.4 消融研究

当应用m次细化数据和n个量化元模型时，在PathVQA数据集中的MMQ精度。

仅使用从MMQ输出的一个量化元模型时，我们的性能显著优于MAML和MEVF基线。这证实了所提出的MMQ在处理医学VQA中元注释的局限性方面的有效性，如有噪声的标签和可伸缩性。此外，利用更多量化的元模型也进一步提高了整体性能。

我们的MMQ的改进在*形式的问题上比是/无问题更为重要。这一观察结果意味着，更具挑战性和需要更多输入图像信息的*形式的问题/答案从我们提出的方法中获益更多。

表2还显示，增加细化步骤的数量和量化元模型的数量可以提高整体结果，但每个循环后的增益较小。当元模型的数量设置得更高时，训练时间和参数总数也会增加。基于实证结果，我们建议应用5次优化，最多使用3个量化元模型来平衡精度性能和计算成本之间的权衡。

五、结论

我们提出了一种新的多元模型量化方法，以在医学VQA任务中有效地利用元注释和处理噪声标签。广泛的实验结果表明，我们提出的方法在PathVQA和VQA-RAD数据集上都大大优于最先进的基于元学习的方法。

秒客网