文件名称:ViT:实现Vi(sion)T(transformer)
文件大小:1.97MB
文件格式:ZIP
更新时间:2024-06-15 03:08:40
computer-vision deep-learning
在PyTorch中实现Vi(sual)T(transformer) 大家好,新年快乐! 今天,我们将要实现著名的Vi (双) T (变压器),该产品在“。 代码在这里,可以从下载本文的交互式版本。 ViT将很快在我称为新计算机视觉库中提供 这是一个技术教程,而不是您在普通的中级文章中找到的使您变得富有的前5个最重要的熊猫功能。 因此,在开始之前,我强烈建议您: 看看惊人的网站 观看 阅读文档 因此,ViT使用在图像上工作的普通变压器(“提出的一种变压器)。 但是,如何? 下图显示了ViT的体系结构 输入图像被分解为16x16展平的小块(图像未按比例绘制)。 然后使用普通的完全连接层将它们嵌入,在它们前面添加特殊的cls令牌,并对positional encoding求和。 生成的张量首先传递到标准Transformer,然后传递到分类头。 就是这样。 本文的结构分为以下几节
【文件预览】:
ViT-main
----images()
--------paper1.png(85KB)
--------TransformerBlockAttentionRes.png(19KB)
--------PatchesProjected.png(179KB)
--------TransformerBlockMLP.png(4KB)
--------DeiT.png(263KB)
--------ViTPatchesPositionEmbedding.png(213KB)
--------TransformerBlock.png(78KB)
--------PathPositionEmbedding.png(31KB)
--------TransformerBlockAttention.png(11KB)
--------output_5_1.png(88KB)
--------ViTPathEmbedding.png(468KB)
--------ViT.png(254KB)
--------TransformerBlockAttentionZoom.png(32KB)
--------Patches.png(153KB)
----.vscode()
--------settings.json(72B)
----transfomer.md(16KB)
----README.md(31KB)
----.gitignore(2KB)
----cat.jpg(152KB)
----README.ipynb(42KB)