2021:多任务预训练的跨模态自注意力的医学视觉问答Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical VQA

时间:2024-10-10 07:28:59

Lvqa和Ltype是基于答案预测和图像种类的分类的交叉熵损失。

3.2.1 图像编码

       我们使用三个独立的ResNet-34网络在相应的外部数据集上预训练,以分别捕获MRI、CT、X-射线的视觉特征。然后使用一个分类器确定医学图像的种类,并以soft方式选择相应的视觉特征:

v表示最终视觉特征,va,vh,vc分别表示从解码器的对应腹部、头部和胸部图像的输出特征。w是图像种类分类器的输出向量,表示每个医学图像种类的权重。

        此外,为了更好理解和回答有关局部图像定位的问题,我们按照[27]获得有同样分辨率的8维空间特征图t作为视觉特征w。空间特征图t中每个位置的空间向量编码归一化坐标(左上、中间、右下、网格的宽和高)。

3.2.2 问题编码

       按照前面的工作[17],每个单词都表示为来自VQA-RAD的一个200维BioWordVec词嵌入和另一个200维增强嵌入的连接。BioWordVec是一种基于PubMed和MeSH的预训练的生物医学词嵌入。每个400维嵌入向量送入LSTM获取问题嵌入qR 12×1024 .

3.2.3 跨模态自注意力

      跨模态融合前,我们有视觉特征vR7×7×512,空间特征sR7×7×8和问题嵌入qR 12×1024。对于问题中的每个词,我们连接在每个空间位置的视觉和空间特征的表示,以产生一个特征图f∈ R7×7×1544。然后收集所有连接的特征图以获取一个多模态特征图FR 12× 7 × × 1544。在捕获非局部上下文中受自注意力的启发,我们设计我们的跨模态对齐和融合方法。

        首先通过三个1*1*1的卷积层将多模态特征图F转换为三个特征图Q,K,VR 12×7×7×772。重新设置尺寸R 588×772,使用Q和K计算注意力图A:

        AR 588×588 表示不同位置特征的连接。将注意力图A和特征图V相乘得到增强的多模态表示F’R 588×772

        接下来,将F’的维度通过重塑和卷积层转换为R12*7*7*1544.以上的操作被展示在图1命名为自注意力模块。受BAN的glimpse的启发,我们使用残差连接再次重复自注意力模块。最终的多模态表示F^R 12×1544通过应用一个平均池化到所有空间位置F’和F的残差连接的输出获取:

 i,j,k是特征图中词的数量、高和宽的指标。在一个线性层,F^被转换到同一尺度作为问题嵌入q。

3.2.4 答案预测

       共同表示F^在元素上加上问题嵌入q,之后是问题中所有词的总和。最终,将其送入一个两层的MLP以进行答案预测。答案的预测分数被计算为:

四、实验

4.1 数据集和指标

       VQA-RAD数据集:包含315张放射图像,3064个训练问题和451个测试问题。我们引用三个额外数据集预训练不同图像种类的视觉编码器,包括腹部CT,大脑MRI和胸部X-射线。腹部CT数据集包含2178个13种的多器官分割的图像,使用2070个图像训练,108个图像验证。大脑MRI数据集包含三种大脑肿瘤的3604张图像,3000个图像训练和64个图像验证。胸部X-射线数据集包含5232个肺炎或正常的图像,5000个图像训练232个图像验证。

       正确率作为VQA任务和预训练分类任务的指标,acccls和acccom指图像分类任务和问题-图像兼容性任务的正确率。mIoU指分割的标准。

4.2 先进模型的比较

       我们提出的方法在开放式和封闭式VQA上都达到了最高的精度。我们的方法也优于同样使用外部数据集的BAN-MEVF。此外,提出的方法可以与条件推理[29]相结合,以得到进一步的改进。

4.3 消融研究

       为探究多任务预训练方法的有效性,我们将其与单任务预训练方法比较,该方法只在外部数据集上进行预训练,以进行原始图像分类或分割任务。baseline表示单任务预训练方法,MTPT表示具有BioWordVec词嵌入的设计方法。结果表明,提出的多任务预训练方法可略微提高每个特定图像理解任务的性能。

       在对视觉编码器进行了预训练后,我们加载了预训练的权重,以在VQA-RAD上训练整个VQA模型。“INPT”使用ImageNet上三个预训练的ResNet-34作为视觉编码器。“STPT”通过单任务预训练初始化视觉编码器,而“MTPT”从多任务预训练中加载视觉编码器的权重。CMSA使用提议的“CMSA”进行特征融合,而“BAN”应用BAN[13]进行特征融合。

        从表3中看出,“MTPT-CMSA”在相同的外部数据集上显著优于“STPT-CMSA”,这表明我们的多任务学习范式的预训练视觉特征更适合我们的CMSA模块,以获得有效的多模态表示。此外,所提出的“CMSA”特征融合通过捕获上下文相关性,超越了“BAN”特征融合方法。

五、结论

       本文引入一种基于多任务预训练范式的医学VQA框架,以实现更有效的医学图像表示学习。此外,提出的CMSA模块通过捕获上下文相关性,有效地融合了视觉和语言特征。实验结果证明,该方法可以更有效地利用外部数据来克服医学VQA数据的局限性。在未来,我们将专注于将领域知识集成到最近基于知识的数据集[16]的医学VQA,以实现可解释的医学应用。