【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法

文章目录

【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法
3. Methodology
- 3.1. Model architecture
- - 3.1.1. Global Local feature extraction block
  - 3.1.2. Detailed spatial spectral Aggregation block
- 3.2. Deep transfer learning method

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文：
可访问艾思科蓝官网，浏览即将召开的学术会议列表。会议入口：https://ais.cn/u/mmmiUz

论文链接：https://www.sciencedirect.com/science/article/pii/S1569843223004363

3. Methodology

3.1. Model architecture

SCDUNet++的整体架构如图4所示。模型中的编码器采用了GLFE模块，这是一个混合卷积神经网络（CNN）-Transformer模块；同时，设计了DSSA模块，以便更精细地提取光谱和空间特征。此外，采用了嵌套解码器并配备密集跳跃连接（DSC），用于在每个阶段恢复特征的分辨率。最终，各阶段特征加权融合，以获得最终结果。实现代码可在https://github.com/lewuu/SCDUNetPP获取。
在这里插入图片描述

3.1.1. Global Local feature extraction block

在遥感影像中，滑坡特征间的巨大差异及地物间的相似性增加了区分滑坡的难度。GLFE模块通过浅层CNN结构和深层Swin Transformer结构组合，确保了更准确的信息提取（如图4(b)所示）。

给定输入滑坡图像 $X_{in}∈R^{H×W×C}$ ，将 $X_{in}$ 划分为不重叠的补丁 $X_{P}∈R^{H/P×W/P×C}$ ，其中 $P = 4$ （Liu et al., 2021），这些补丁经过线性嵌入，输入两个连续的Swin Transformer模块，以获取特征 $F_{3}∈R^{H/4×W/4×2N}$ ，其中 $N = 32$ 。前一阶段输出特征在第4至第5阶段经过补丁合并以实现下采样，随后进入六个和两个连续的Swin Transformer模块，分别得到特征 $F_{4}∈R^{H/8×W/8×4N}$ 和 $F_{5}∈R^{H/16×W/16×8N}$ 。

我们发现补丁切分会导致信息损失，从而影响精度。因此，在较浅层设计了两层CNN结构，以补充模型的局部特征提取能力(Yuan et al.，2023)。第一阶段通过两个3 × 3卷积模块获取特征 $F_{1}∈R^{H×W×N}$ ，第二阶段通过下采样和三个3 × 3卷积模块获得特征 $F_{2}∈R^{H/2×W/2×2N}$ 。

在三个Swin Transformer模块中，窗口大小为8，每个阶段的注意力头数量分别为{2, 4, 8}，每个头的查询维度为32。此外，由于设计了较浅的网络深度（{32, 64, 64, 128, 256}），该模型在参数量和训练难度上具有优势。

3.1.2. Detailed spatial spectral Aggregation block

由于多光谱图像包含比RGB图像更复杂的信息，DSSA模块接收来自光谱（图4 III）和浅层CNN（图4 I和图4 II）的特征输入，从而能够提取空间和光谱特征信息，使模型能够关注更全面和细致的特征。DSSA模块由三个膨胀率分别为{1, 2, 3}的膨胀卷积、一个空间池化模块和一个光谱池化模块组成，如图4(e)所示。

DSSA模块接收来自两个分支的输入：一是光谱张量 $X_{S}∈R^{H×W×C_S}$ （图4 III），另一是GLFE模块中的特征 $F_{1}∈R^{H×W×N}$ （图4 II）和 $F_{2}∈R^{H/2×W/2×2N}$ （图4 I）。DSSA模块融合这两个分支的特征以获得张量 $T_{in}∈R^{H×W×N}$ ，其表达式如公式(5)所示：
在这里插入图片描述
其中， $F_{up}(·)$ 表示使用最近邻插值的上采样函数， $C_{1×1}(·)$ 和 $C_{3×3}(·)$ 分别代表具有批量归一化和GELU激活的1×1和3×3卷积层， $\overset{◯}{c}$ 表示特征拼接操作。

在空间池化模块中，张量 $T_{in}$ 通过在垂直和水平方向上进行全局平均池化和全局最大池化得到向量 $P_{avgH}∈R^{H×1×N}$ 、 $P_{avgW}∈R^{1×W×N}$ 、 $P_{maxH}∈R^{H×1×N}$ 和 $P_{maxW}∈R^{1×W×N}$ 。这些向量的元素可以通过公式(6)至(9)计算得出。
在这里插入图片描述
其中， $h \in [0, H)$ ， $w \in [0, W)$ ， $n \in [0, N)$ 表示在垂直、水平和通道维度上的索引。垂直和水平向量相乘，以分别获得空间中的特征分布权重。随后，将这两个权重结合并通过卷积层进行压缩，以获得空间池化特征 $T_{spat}∈R^{H×W×N}$ ，其表达式如公式(10)所示：
在这里插入图片描述
其中， $\otimes$ 表示矩阵乘法。在光谱池化模块中，张量 $T_{in}$ 被压缩以获得向量 $P_{avg}∈R^N$ 和 $P_{max}∈R^N$ 。这些向量中的元素可以通过公式(11)和(12)计算得出。

这两个向量被拼接并压缩，以获得光谱通道上的注意力权重。随后，这些权重被扩展，以获得大小匹配的光谱池化特征张量 $T_{spec}∈R^{H×W×N}$

秒客网

【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法