6.26.4 基于视觉变换的乳房x光片分类迁移学习

时间:2024-07-04 19:22:58

        乳房x线摄影(MG)在乳腺癌的早期发现中起着重要作用。MG可以在早期发现乳腺癌,即使是不能感觉到肿块的小肿瘤。然而,由于mg的复杂性和放射科医生进行的大量检查,可能会出现误诊。为了给放射科医生提供一个公正的视角,应用图像处理方法和模式识别的计算机辅助检测(CAD)已经发展起来。

        传统的CAD模型并不能显著提高MG的诊断效能。在使用传统CAD进行MG异常识别时,显著的假阳性率是主要障碍。假阳性结果导致患者焦虑、不必要的辐射暴露、无意义的活组织检查、高回复率、更高的医疗费用和更多的检查次数。因此,探索了新的更准确的检测技术,从而将机器学习技术用于诊断图像的分类。特别是乳房x线照片的深度学习(deep learning, DL)在过去几年被大量研究和应用于乳腺癌的早期发现。基于卷积神经网络(CNN)的深度学习最近引起了MG的广泛关注,因为它有助于克服CAD系统的限制(假阳性、不必要的辐射暴露、无意义的活检、高回调率、更高的医疗费用和更多的检查次数)。


        然而,当用于整张乳房x光图像时,由于在不同特征级别上进行多次卷积,CNN的计算成本很高。首先关注图像的特定区域,而不是整个图像,然后逐渐为整个图像建立特征,导致昂贵的计算步骤。在没有增强的情况下,CNN缺乏处理旋转和尺度不变性的能力,无法编码相对空间信息。为了解决相对空间信息编码失败以及缺乏旋转和尺度不变性处理的问题,使用了基于补丁的乳房图像分类器,其中使用了潜在感兴趣区域(ROI)而不是整个乳房图像。这种方法有局限性。基于CNN的深度学习模型用于乳腺x线摄影乳腺癌检测的第一个挑战是肿瘤定位[30]。

        大多数基于cnn的深度学习模型使用基于补丁的方法,即乳房x光片上的可疑肿瘤区域被裁剪并输入模型。这会导致整个乳房x光片的信息丢失,导致假阳性结果。此外,基于补丁的方法耗时且计算量大。基于CNN的方法的第二个限制是,它的性能会根据图像中病变的大小而变化。因此,感兴趣区域(ROI)损伤的大小会影响CNN的性能。第三,CNN需要大量的预处理来弥补较差的图像质量。由于能见度低、对比度低、清晰度差和噪音,相当大比例的异常被误诊或忽视。常用的预处理方法,如滤波器,已被建议用于提高图像质量,图像平滑和降噪。然而,选择最佳的预处理方法来增强CNN分类仍然是一个挑战。第四,CNN在不平衡数据集上表现不佳,从而极大地影响了其性能。训练数据集中正负类之间的不平等被称为数据集不平衡。在不平衡数据集上直接训练CNN模型可能会使预测偏向于具有更多观测值的类别。最后,CNN在多视图乳房x线照片中对肿瘤进行分类时表现不佳,而这在临床环境中是至关重要的辅助手段。目前的CNN模型被训练为检测MG上的肿瘤,而忽略了其他恶性肿瘤的存在。

        为了弥补训练图像数据集的不足,两种广泛使用的技术是数据增强和迁移学习。数据增强可以使用原始图像创建重新排列的图像数据,从而增加训练图像数据集的数量和种类。它包括诸如噪声添加、旋转、平移、对比度、饱和度、颜色增强、亮度、缩放和裁剪等操作。迁移学习利用来自选定数据集的预训练权值作为在另一个数据集上进行训练的起点。这种方法可以利用从以前的任务中学到的知识来完成目标任务。几乎所有基于cnn的乳腺x线摄影乳腺癌检测的深度学习方法都利用迁移学习方法来弥补大数据集的不足,并利用具有先验特征知识的优化模型来完成新任务。

        开发了一种基于视觉变换的迁移学习的乳房x线摄影乳腺癌检测的深度学习方法。本研究对文献有两大贡献。第一个是图像数据平衡模块,用于解决乳房x光数据集中的类不平衡问题。本研究使用的数据集由两类组成,来自良性和恶性组织,样本量不等。换句话说,类别不平衡可能导致模型学习的偏差。为了克服这个问题,提出了基于增强的类平衡。其次,我们设计了一种基于视觉变换的乳房x线照片分类迁移学习方法。这种新的迁移学习方法利用变形者的自注意方法,改进了基于cnn的迁移学习方法的缺点。

相关工作

        在分析乳房x线照片时,cnn只关注一个特定的区域(疑似肿瘤的区域),而忽略了图像的其他部分,这导致cnn错过了一些关键的细节,如果立即检查整个图像,这些细节就会被发现。视觉变压器(ViTs)最近在计算机视觉领域取得了突出的成就,在需要自然图像分类的任务中超过了cnn。由于其较低的计算复杂性和克服CNN只关注图像一小部分的局限性的能力,ViTs优于最先进的CNN模型。

       ViT概念是基于文本转换器的原始Transformer概念的发展。在代码中稍作调整以适应各种数据模式,它只是一个应用于图像域的转换器。ViT特别使用了几种标记化和嵌入技术。不过,总体架构是相同的。源图像被划分为称为视觉标记的图像补丁的集合。视觉标记被合并到固定维编码向量的集合中。变压器编码器网络与负责处理文本输入的网络本质上是相同的,它将图像中一个补丁的位置与编码向量一起馈送。

        ViT Encoder由几个块组成,每个块有三个主要的处理组件:层范数、多头注意网络(MSP)和多层感知器(MLP)。由于层范数,该模型可以根据训练图像的差异进行调整,使训练过程保持在轨道上。MSP(多头注意力网络)从提供的嵌入式视觉标记中创建注意力图。这些注意图帮助网络集中在图像最关键的区域,比如物体。MLP是一个两层分类网络,在最末端有一个GELU(高斯误差线性单元)。最后一个MLP块,也称为MLP头,作为变压器的输出。SoftMax可用于此输出以提供分类标签(即,如果应用程序是图像分类)。

此前的贡献 

         使用ViT对乳腺癌早期诊断的乳房x光照片进行分类。Lee等人[52]提出了基于变压器的深度学习,解决了乳房x线照片归一化和分级中读者间差异的挑战。提出了一种使用光度变压器网络(PTN)作为可编程归一化模块来预测输入MG的归一化参数的方法。它与初级预测网络无缝连接,允许组合学习最佳归一化和密度等级。原则上,PTN类似于一个空间变压器网络[53]。然而,PTN试图确定一组最适合预测乳腺密度的光度变换参数,而空间变压器网络预测合适的几何变换参数。        

        Tulder等人[45]提出了一种新的基于令牌的逐像素交叉视图转换器技术,并将其用于两个公共MG数据集。提出了一种基于转换器的方法,该方法在特征映射级别连接视图,而不需要逐像素对应。使用跨视图注意而不是自注意来跨视图传递信息,这与传统的变压器在单个序列中处理信息的方式不同。

        对于数字乳房x线照片中的图像分割和乳房肿块检测,Su等[54]提出了YOLO-LOGO变压器模型。这包括两个步骤:首先,他们使用YoloV5检测乳房肿块的ROI,并直接从高分辨率图像中裁剪,以提高训练效率。之后,他们使用了更新版本的local-global (LOGO)分割策略,显著提高了原始像素级的分割分辨率。

        Garrucho等人[55]通过比较在单一领域(包括基于变压器的模型)训练的八种尖端检测技术的性能,评估了MG模型的领域泛化,并在五个未开发的领域对其进行了测试。他们观察到基于变压器的模型在乳房x光片的域泛化方面比其他模型更健壮,表现更好。

        Chen等[56]使用多视图变压器(multi-view transformer, MVT)模型检测乳房x光片上的乳腺癌节段。MVT主要由局部变压器和全局变压器两部分组成。本地Transformer块单独分析来自每个视图图像的数据。相反,全局转换块结合了来自四视图乳房x光检查的数据。自注意、多头注意和多层感知器是局部和全局变压器块的三个主要组成部分,两者具有相同的设计。

材料与方法

数据集

        使用乳腺筛查数字数据库(DDSM)数据集来训练和测试我们基于视觉转换器的乳腺癌早期识别转移学习系统。该数据集是公开的。数据集包括13128张图像,其中5970张来自良性组织,7158张来自恶性组织。来自数据集的样例图像如图1所示。 

类别平衡

        数据集中来自恶性组织和良性组织的图像数量不相等。DDSM数据集中恶性与良性样本的比例为0.65:0.35。这种数据分布可能会影响所设计算法的学习,必须先加以修正。因此,我们使用数据增强执行了一种新的数据平衡方法。据我们所知,这种数据类平衡方法是我们小组首次使用的乳房x线照片[36]。

        首先,将数据集分为80%的训练集和20%的测试集。为了平衡数据集进行5倍交叉验证(嵌套交叉验证),使用了5幅图像增强,包括颜色抖动、伽马校正、水平翻转、盐和胡椒以及锐化,如[36]所示。数据集被分为五折,每折包含训练和验证数据集。因此,在DDSM数据集中,前4个折叠中,每个折叠中存在1145张恶性肿瘤图像,而第5个折叠中存在1146张恶性肿瘤图像。同样,对于良性组,前四组有955张图像,而第五组有956张图像。为了平衡两类之间的数据,我们对良性类图像进行了五次图像增强,而恶性肿块图像只进行了一次增强。最后,增强后,良恶性两类肿瘤的每组图像均为1146张,如图2所示。

预处理

        将所有图像的大小调整为224 × 224像素,这是从输入图像生成补丁的首选大小。 

提出的方法

        采用了一种基于视觉变换的迁移学习方法来区分乳腺x光片是良性还是恶性组织。因此,在自然图像(ImageNet数据集)上进行预训练的视觉转换模型被用于乳房x线照片分类。

Vision Transformer架构

        Vision Transformer源自自然语言处理(NLP)模型中使用的原始转换器模型,其中输入是单词标记的一维序列。然而,图像是二维的,视觉转换模型将图像分割成更小的二维小块,并将小块作为单词标记输入,就像原来的NLP转换模型所做的那样。输入图像的高度为H,宽度为W,通道数为C,被分成较小的二维小块,以类似于NLP域的输入结构的方式排列输入图像数据。这就产生了像素大小为P × P的N=\frac{HW}{P^2}块[57]。在将贴片提供给变压器编码器之前,按以下顺序进行平坦化、序列嵌入、可学习嵌入、贴片嵌入:         

  • 每个斑块被平展成一个向量,X^n_p,长度为P^2\times C,对于n = 1,…N
  • 使用可训练的线性投影E将这些平坦的图像块映射到D维,生成一系列嵌入的图像块
  • 嵌入的图像块序列以嵌入X_{class}的可学习类为前缀。X_{class}值对应于分类结果Y
  • 将训练中习得的一维位置嵌入E_{pos}加入到patch embedding中,将定位信息添加到输入中

嵌入向量:

z_o=\begin{bmatrix}X_{class}; X_p^1E;\dots;X_p^NE\end{bmatrix}+E_{pos} 

z_0输入到变压器-编码器网络中进行分类,该网络是由L个相同层组成的堆栈。然后在编码器输出的第L层将X_{class}的值输入分类头。在预训练过程中使用带有单个隐藏层的MLP实现分类头,在微调过程中使用单个线性层实现分类头。MLP实现了GELU非线性,作为分类头。

        总的来说,Vision Transformer使用了原始NLP变压器架构的编码器组件。编码器接收大小为16 × 16的嵌入图像补丁序列作为输入,同时接收位置数据,以及挂起到该序列的可学习类嵌入。补丁的尺寸越小,性能越高,计算成本也越高。因此,选择16 × 16的补丁大小,如[58],因为它对性能下降和计算复杂性的鲁棒性。可学习的类嵌入值被发送到与编码器输出耦合的分类头,编码器使用它根据其状态产生分类输出。图3显示了基于视觉转换器的迁移学习架构的一般结构。在ImageNet数据集上预训练的原始视觉变压器模型被这样使用,即最后一层被替换为平坦层,然后是批处理归一化层和输出密集层。

迁移学习

        利用在大型ImageNet自然图像数据集上预训练的视觉转换模型作为训练乳房x光片数据集的起点。目的是利用视觉转换器从大型自然图像数据集中获得的知识,将乳房x光照片分为两类:良性和恶性组织。为此,分离了预训练的预测头,并将其替换为D\times K前驱层,其中K = 2为下游方向的总类数。通过迁移学习,试图利用源域D_s 和学习任务T_s 的知识来增强目标域D_t 中目标函数f_t(\cdot)的学习。ImageNet数据集有m个训练样本\{(x^1,y^1),\ldots,(x^i,y^i),\ldots,(x^m,y^m)\},其中x^iy^i分别表示输入和标签。然后,将ImageNet预训练的视觉转换模型W_0的权值作为迁移学习的起点,通过最小化(2)中的目标函数来生成W1,其中\langle y^{ij}|x^{ij}, W_0,W_1,b\rangle为Softmax输出概率函数,b为偏置。

 J(\langle W_1, b|W_0\rangle)=\frac{-1}{mn}\sum_{i=1}^m\sum_{j=1}^my^{ij}\log\left(P\Big\langle y^{ij}\Big|x^{ij}, W_0,W_1,b\Big\rangle\right)\quad(2)

W-MSA,基于窗口的多头自我注意;SW-MSA,基于移位窗口的多头自我注意力

        PVT使用一种被称为空间缩减注意(spatial-reduction attention, SRA)的自注意类型,其特征是键和值的空间缩减,从而获得注意机制的二次复杂度。SRA在整个模型中逐步降低特征的空间维数。 

实验设置

        采用五种实验设置对所提方法的性能进行了评估。首先是使用三种最先进的视觉转换器架构比较所提出的迁移学习方法的性能。其次,我们使用这三种架构从头开始在乳房x线照片数据集上训练视觉转换模型,并将它们与迁移学习模型进行比较。第三,我们比较了使用视觉变压器和CNN的迁移学习。在第四个实验设置中,评估每个视觉转换器模型的计算成本。第五,在相同的数据集上,将所提出的方法与之前使用的方法的性能进行了比较。

实现细节

        模型使用Adam优化器以0.0001的学习率训练了50个epoch。这些参数的选择是基于先前对同一数据集的研究以及硬件和软件设置。采用指数衰减,批次大小为64。将数据集以8:2的比例分成训练组和测试组。对于视觉变压器模型,GELU作为激活函数,与L2正则化器一起使用。在CNN中使用了一个整流线性单元(ReLu)和一个L2正则化器。为防止结果偏差,所有比较均采用相同的参数设置。采用五重交叉验证比较模型性能。

结果

        基于Vision Transformer的迁移学习模型在DDSM数据集上的准确率、AUC、F1分数、精度、召回率、MCC和kappa值均为1±0。这提供了强有力的证据,表明基于Vision Transformer的迁移学习在改进乳腺x光检查的DL方法方面是有效的,从而改进了乳腺癌的早期诊断技术。

        使用每秒浮点运算(FLOPS)来比较不同的基于视觉转换器的迁移学习模型的计算成本。FLOPS是运行某个模型的单个实例所需的操作数量的度量。例如,训练单个ViT模型实例需要多少操作。FLOPS越大,计算成本越高;FLOPS越低,计算成本越低。因此,首选具有较小FLOPS的模型。在DDSM数据集上,FLOPS值最小的PVT-medium对于基于视觉转换器的迁移学习是有效的,尽管其在精度方面的表现与其他五种模型相同。

结论

        Vision Transformer性能更好的主要原因是能够从早期层捕获全局信息,以及深度自注意力机制,使每个补丁的特征能够被仔细分析以进行决策。此外,研究表明,由于DDSM数据集中的图像数量较少,因此在DDSM数据集中使用视觉转换模型进行迁移学习比从头开始训练模型更有效。DL模型需要大量的数据进行训练,需要训练的参数也很多,这就导致在训练数据集较小的情况下,比如DDSM数据,模型会出现过拟合的情况。因此,迁移学习提供了更好的结果,因为它使用了在大型数据集(如ImageNet数据集)上预训练的权重,并在训练期间利用这些知识从小型数据集(如DDSM)中学习。

        进一步研究了基于Vision Transformer的迁移学习的有效性,直接将其与基于CNN的迁移学习进行比较,将乳房x光片分类为良性或恶性组织。综上所述,我们观察到基于Vision Transformer的迁移学习在DDSM数据集上优于基于CNN的迁移学习。此外,基于PVT的迁移学习模型的计算成本更低,可以提供与其他模型相同的性能,包括ViTs,用于乳房x线照片分类的计算成本更低。