SaTransformer:用于乳腺癌分类和分割的Semantic-aware Transformer

时间:2024-04-06 07:51:32

现有方法将分类和分割作为两个独立的任务来处理,忽略了分类和分割任务之间的潜在联系。SaTransformer支持通过一个统一的框架同时执行两个任务。与现有方法不同的是,分割和分类信息在语义上是交互的,在特征表示学习过程中相互促进,在消耗较少内存和计算复杂度的同时提高了特征表示学习的能力。

乳腺癌的准确分割和分类仍然面临着许多挑战。具体地说,1)乳腺癌边缘模糊,信噪比低,而且乳腺癌与背景和周围软组织的信号强度总是不均匀,这给乳腺癌的准确识别和检测带来了挑战。2)癌症本身的大小、形状和强度分布因患者而异,进一步增加了分割和分类的挑战。

基于CNN的乳腺肿瘤分割和分类方法仍然面临的挑战:

以往的工作将分割任务和分类任务视为两个独立的任务,缺乏两者之间的交互作用。根据我们的实验,建立两个任务之间的交互可能是进一步提高基于CNN的方法在乳腺肿瘤分割和分类中性能的有效途径

现有的完全基于CNN的模型缺乏建立各种特征空间之间的相关性和差异性的能力,以克服低信噪比、复杂的背景纹理和边界不清晰的挑战。

语义感知转换器(Semantic-aware Transformer)

建立每个像素之间的相关性,用于全局结构和内容信息的提取。

  1. 利用乳腺癌的全局结构的内容信息
  2. SaTransformer具有较少的内存和计算复杂度来提取全局信息的优势
  3. SaTransformer可以很容易地扩展到其他任务

在SaTransformer中,用于分类和分割任务的语义特征相互加强,提高了特征表示学习的能力。

  1. 新型SaTransformer网络能够建立分割和分类任务之间的交互,克服分割和分类任务缺乏信息交互的局限性
  2. SaTransformer具有使用更少的内存和计算复杂性来提取全局信息的优势

 现有的方法主要集中在卷积滤波中,只接收感受野内的局部信息,缺乏建立各种特征空间之间的相关性和差异性的能力。

Transformer

一种从组织病理图像中对乳腺癌进行分类的去卷积变换(DECT)模型。

双流深度网络(DECT-Net),用于从组织病理学图像中进行乳腺癌分类。DCET-Net整合了CNN和Transformer。DCET-Net利用CNN Stream专注于组织病理图像的局部深度特征提取,同时通过变换流增强图像的全局信息表示,实现了更具区分性的深度特征用于区分乳腺癌组织病理图像。

文章提出的方法

框架

该框架由两个模块组成:1)用于特征表示学习的编码模块;2)用于分割和分类任务的解码模块。

编码模块和解码模块使用经典的U-net结构构建,逐步提取上下文信息并产生分割结果。

编码模块

四个残差块和四个步长为2的最大池化层组成逐步降低特征图的分辨率,增加卷积层的感受野,从而提取全局特征信息。为了避免信息丢失和增强编码模块与解码模块之间的信息交流,使用长连接,将来自两个模块的相同分辨率级别的块连接起来。

解码模块

四个反卷积层和四个SaTransformer模块组成。反卷积层逐渐对特征图进行上采样,直到达到用于端对端分割的原始大小。SaTransformer在每个像素之间建立相关性,以更少的内存消耗和计算复杂度提高特征表示的学习能力。通过最大池化将Transformer提取的语义信息用于分类任务。

SaTransformer

典型的Transformer在对长范围像素相关性进行建模和提取此类信息方面表现出了非凡的能力。主要包括用于注意力计算的多头注意力(MHA)层,用于特征变换的多层感知器(MLP),用于特征融合的层归一化(LN)和残差连接。

自注意力机制建立了不同特征空间之间的关联和差异,从而建立长期依赖关系。

维度注意力模块是一种特殊的注意力机制,它专注于处理输入数据在不同维度(如通道、空间等)上的重要性。

 Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d}})V

注意力图的大小为R^{HW\times HW},对于W\times H像素的图像,其存储复杂度为O(W^{2}\times H^{2})

因为自我注意力占据了Transformer中的主要计算开销,我们提出一种新的维度注意力模块(DAM),可以将平方复杂度转换为线性复杂度,并且显著减少自我注意力的计算开销。

 给定一个输入特征映射X \in R^{C\times H\times W},为了确保像素之间的上下文全局关系,对维度相关性进行建模

Dimensional-attention(Q,K,V)=softmax(\frac{QK^{T}}{d})V

维度注意力模块中维度-注意图的大小为R^{C\times C},d是控制点积大小的可学习的比例参数。

模型训练

本文采用L_{dics}损失函数作为像素方面的加权损失

L_{dics}(\hat{Y},Y)=\frac{|(2\hat{Y}\cap Y)|}{|\hat{Y}|+|Y|}

交叉熵损失L_{ce}=-\sum _{y}ylog(y)+(1-y)log(1-\hat{y})

L_{total}=L_{ce}+L_{dice}

实验

为了评估分割性能,使用骰子相似系数(DSC)和杰卡德相似系数(JSC)

DSC(x,y)=\frac{2|x\cap y|}{|x|+|y|}

JSC(x,y)=\frac{|x\cap y|}{|x \cup y|}

SaTransformer的消融学习

我们使用不同的模块比较基线的性能,以演示SaTransformer的有效性。

分割基础模型:基线由传统的卷积层组成,网络内部不使用SaTransformer模块。为细分任务而设计的,以模型的性能为基线。

分类基础模型:这里的基线用于分类任务。在解码阶段学习的特征通过全局池化层被提取以用于最终的分类任务。

用于分割的SaTransformer+基础模型:SaTransformer网络由L_{dice}针对分割任务进行训练。

用于分类的SaTransformer+基础模型:SaTransformer网络由L_{ce}针对分类任务进行训练。

用于分割和分类的SaTransformer+基础模型:SaTransformer网络由L_{dice}L_{ce}针对分割和分类任务进行训练。