CVSE:用于图像-文本匹配的共识感知视觉语义嵌入论文的官方源代码(ECCV 2020)

时间:2024-05-02 14:19:02
【文件属性】:

文件名称:CVSE:用于图像-文本匹配的共识感知视觉语义嵌入论文的官方源代码(ECCV 2020)

文件大小:214.1MB

文件格式:ZIP

更新时间:2024-05-02 14:19:02

Python

介绍 这是共识感知视觉语义嵌入(CVSE) ,这是论文《的官方源代码。 它基于PyTorch中的构建。 抽象的: 图像文本匹配在桥接视觉和语言方面起着核心作用。 大多数现有方法仅依靠图像-文本实例对来学习它们的表示,从而利用它们的匹配关系并进行相应的对齐。 这样的方法只是利用实例成对数据中包含的表面关联,而没有考虑任何外部常识知识,这可能会阻碍它们推理图像和文本之间更高层次关系的能力。 在本文中,我们提出了一种共识感知视觉语义嵌入(CVSE)模型,以将共识信息(即两种模式之间共享的常识知识)整合到图像文本匹配中。 具体而言,通过计算来自图像字幕语料库的语义概念之间的统计共现相关性,并部署构造的概念相关图以产生共识感知概念(CAC)表示,来利用共识信息。 之后,CVSE基于所利用的共识以及两种模式的实例级表示形式,学习图像与文本之间的关联和对齐方式。 在两个公共数据集上进行的大量实验证明


【文件预览】:
CVSE-master
----runs()
--------f30k()
--------coco()
----figures()
--------framework_CVSE.jpg(472KB)
----train_coco.py(14KB)
----data()
--------f30k_annotations()
--------f30k()
--------coco_annotations()
--------coco_to_f30k_annotations()
--------coco()
----model_CVSE.py(36KB)
----__pycache__()
--------model_CVSE.cpython-36.pyc(21KB)
--------evaluation.cpython-36.pyc(13KB)
--------data.cpython-36.pyc(11KB)
--------vocab.cpython-36.pyc(3KB)
----evaluation.py(19KB)
----evaluate.py(4KB)
----.idea()
--------$PRODUCT_WORKSPACE_FILE$(461B)
--------$CACHE_FILE$(467B)
--------misc.xml(197B)
--------vcs.xml(180B)
--------modules.xml(308B)
--------dictionaries(163B)
--------workspace.xml(7KB)
--------Code_github_ECCV2020_revised.iml(453B)
--------inspectionProfiles()
----vocab()
--------coco_vocab.pkl(316KB)
--------f30k_vocab.json(293KB)
--------f8k_precomp_vocab.pkl(83KB)
--------f8k_vocab.pkl(88KB)
--------coco_precomp_vocab.pkl(268KB)
--------coco_precomp_vocab.json(392KB)
--------f30k_vocab.pkl(230KB)
--------f30k_precomp_vocab.json(14B)
--------f30k_precomp_vocab.pkl(227KB)
----train_f30k.py(14KB)
----README.md(5KB)
----util()
--------utils.py(4KB)
--------__pycache__()
--------util_C_GCN.py(6KB)
--------C_GCN.py(4KB)
----data.py(18KB)
----vocab.py(3KB)

网友评论