文件名称:VQA_ReGAT:ICCV 2019研究论文“用于视觉问题回答的关系感知图注意力网络”
文件大小:1.3MB
文件格式:ZIP
更新时间:2024-04-02 01:38:01
pytorch vqa attention Python
视觉问题回答的关系感知图注意力网络 该存储库是的。 该存储库基于@ hengyuan-hu的和@ Jin-Hwa Kim的,并受其启发。 我们衷心感谢您分享代码。 先决条件 您可能需要一台具有4个GPU(每个GPU具有16GB内存)的计算机,以及用于Python 3的PyTorch v1.0.1。 使用CUDA10.0和Python 3.7安装 。 安装 。 安装 。 如果您使用的是miniconda,则可以使用tools/environment.yml安装所有必备组件。 数据 我们的实现使用了的预训练功能,每个图像具有10-100个自适应功能。 除此之外,还有GloVe载体和Visual Genome问题答案对。 为了方便起见,以下脚本可帮助您下载预处理的数据。 source tools/download.sh 除了数据之外,此脚本还下载了一些预训练的模型。 最后,应按如下
【文件预览】:
VQA_ReGAT-master
----eval.py(8KB)
----misc()
--------regat_overview.jpg(1.54MB)
----config()
--------parser.py(792B)
--------mutan_vqa.json(751B)
--------butd_vqa.json(613B)
--------ban_vqa_cp.json(793B)
--------ban_vqa.json(790B)
----main.py(12KB)
----utils.py(7KB)
----tools()
--------create_embedding.py(2KB)
--------environment.yml(2KB)
--------process.sh(326B)
--------create_dictionary.py(2KB)
--------compute_softscore.py(10KB)
--------__init__.py(1B)
--------download.sh(4KB)
----model()
--------regat.py(5KB)
--------bilinear_attention.py(2KB)
--------graph_att.py(4KB)
--------graph_att_layer.py(7KB)
--------classifier.py(717B)
--------fusion.py(6KB)
--------language_model.py(5KB)
--------bc.py(3KB)
--------__init__.py(1B)
--------counting.py(8KB)
--------position_emb.py(8KB)
--------relation_encoder.py(5KB)
--------fc.py(1KB)
----train.py(8KB)
----dataset.py(22KB)
----LICENSE(1KB)
----dataset_cp_v2.py(11KB)
----.gitignore(1KB)
----README.md(5KB)