采用多尺度编码器-解码器主干:
- 在编码器中,把CT图像分解成不同大小的图像块,从这些图像块中提取特征
- 在解码器中,重建被掩盖图像时,考虑图像块的空间关系
输入D(深度Depth)张H(高Height)*W(宽Width)的CT图像
处理CT图像的步骤解释
1. 划分图像块(Patches)
- 想象一下,我们有一张大的CT图像,我们把它切成了很多小块,每一块的大小是16×16×16(这里的H、W、D分别代表高度、宽度和深度)。这些小块就是我们说的“输入patch”。
2. 随机掩码
- 接下来,我们随机地把60%的这些小块遮盖起来,就像是用一张纸遮住了一部分小块,让它们看不见。这样做的目的是为了让模型学会从剩下的可见部分推测被遮盖部分的信息。
3. 使用STU-Net处理图像
- 然后,我们用一个叫做STU-Net的工具来处理这些被遮盖的小块。这个工具会把这些小块变得更小,变成四个不同的尺寸:H2 × W2 × D2,H4 × W4 × D4,H8 × W8 × D8,和H16 × W16 × D16。这就像是把一张纸片折叠起来,每次折叠都变得更小。
4. 稀疏子流形卷积
- 在STU-Net中,我们用一种特殊的方法来处理这些小块,叫做“稀疏子流形卷积”。这个方法可以帮助我们更好地理解图像的各个部分是如何相互关联的。
5. 分层解码器
- 处理完这些小块后,我们用另一个工具,叫做“分层解码器”,来把这些小块重新放大,恢复到原来的大小或者中间的大小。这个过程就像是把折叠的纸片展开。
6. 重构损失
- 最后,我们比较遮盖前后的图像,看看模型恢复得怎么样。我们计算一个叫做“重构损失”的东西,它告诉我们模型恢复的图像和原来的图像之间有多大的差异。如果重构损失很小,说明模型做得很好,能够从遮盖的部分推测出被遮盖的信息。
在整个过程中,我们的目标是训练一个模型,让它即使在部分信息被遮盖的情况下,也能理解和恢复整个图像的内容。这就像是一个拼图游戏,即使一些拼图片被拿走了,模型也需要能够猜出这些拼图片原来的位置和样子。