ban-vqa:用于视觉问题回答的双线性注意力网络

时间:2024-03-07 05:30:17
【文件属性】:

文件名称:ban-vqa:用于视觉问题回答的双线性注意力网络

文件大小:847KB

文件格式:ZIP

更新时间:2024-03-07 05:30:17

attention visual-question-answering bilinear-pooling pytorch-implmention Python

双线性注意力网络 该存储库是用于视觉问题回答和Flickr30k实体任务的的实现。 对于视觉问题回答任务,我们的单个模型达到70.35 ,而15个模型的整体达到71.84 (测试标准,VQA 2.0)。 对于Flickr30k Entities任务,我们的单个模型的Recall @ 1、5和10分别达到69.88 / 84.39 / 86.40 (略好于原始论文)。 有关详细信息,请参阅我们的。 该存储库基于@ hengyuan-hu的并受其启发。 我们衷心感谢您分享代码。 更新 使用torch.einsum双线性注意力网络,向后兼容。 ( ) 现在与PyTorch v1.0.1兼容。 ( ) 先决条件 您可能需要一台具有4个GPU,64GB内存和适用于Python 3的PyTorch v1.0.1的计算机。 使用CUDA和Python 3.6安装 。 安装 。 警告:由于会导


【文件预览】:
ban-vqa-master
----misc()
--------ban_overview.png(250KB)
----main.py(5KB)
----utils.py(9KB)
----tools()
--------create_embedding.py(2KB)
--------grad_check.py(1KB)
--------process.sh(327B)
--------detection_features_converter_target.py(4KB)
--------process_flickr.sh(319B)
--------create_dictionary.py(3KB)
--------compute_softscore.py(9KB)
--------adaptive_detection_features_converter.py(8KB)
--------detection_features_converter.py(5KB)
--------download.sh(2KB)
--------download_data.sh(539B)
--------download_flickr.sh(2KB)
----data()
--------flickr30k()
----test.py(4KB)
----train.py(5KB)
----classifier.py(704B)
----dataset.py(27KB)
----language_model.py(3KB)
----train_flickr.py(5KB)
----attention.py(1KB)
----LICENSE(1KB)
----evaluate.py(3KB)
----bc.py(3KB)
----counting.py(7KB)
----base_model.py(4KB)
----fc.py(1KB)
----README.md(7KB)

网友评论