文件名称:image-captioning:PyTorch中的图像字幕模型“显示并讲述” +“显示,出席并讲述”
文件大小:70.86MB
文件格式:ZIP
更新时间:2024-05-20 08:35:06
Python
图像字幕 PyTorch中图像字幕模型的实现,支持不同类型的注意力机制。 目前仅提供经过预训练的ResNet152和VGG16,并具有批标准化功能作为编码器。 支持的型号: FC来自 Att2all来自 来自Att2in 来自空间关注来自自适应注意 通过capeval/评估字幕, capeval/是从衍生而来,细微的更改,以获得更好的Python 3支持 要求 MSCOCO原始数据集,请将它们放在同一目录中,例如COCO2014/ ,然后在COCO_ROOT中修改configs.py ,您可以在此处获取它们: 无需使用随机拆分, 需要,请将其放在COCO_PATH 具有GPU支持的PyTorch v0.3.1或更高版本。 TensorBoardX 用法 1.预处理 首先,我们应该预处理图像并将其存储在本地。 如果需要并行处理,则可以指定阶段。 所有经过预处理的图像都存储在COCO_R
【文件预览】:
image-captioning-master
----.gitignore(11B)
----encoders.py(6KB)
----README.md(5KB)
----main.sh(228B)
----outputs()
--------vis()
--------models()
--------figs()
--------results()
--------scores()
--------logs()
----decoders.py(27KB)
----capeval()
--------cider()
--------meteor()
--------bleu()
--------rouge()
----show_attention.py(6KB)
----train.py(18KB)
----utils.py(2KB)
----extract.py(3KB)
----solver.py(27KB)
----evaluation.py(11KB)
----preprocess.py(4KB)
----data.py(8KB)
----data()
--------.gitignore(16B)
----configs.py(298B)
----demo()
--------medium.png(900KB)
--------attention_bad.png(704KB)
--------low.png(816KB)
--------attention_good_1.png(1008KB)
--------high.png(852KB)
--------attention_good_3.png(961KB)
--------attention_good_2.png(926KB)