文件名称:Oscar:奥斯卡和VinVL
文件大小:724KB
文件格式:ZIP
更新时间:2024-04-07 22:01:43
vqa image-captioning oscar vision-and-language pre-training
奥斯卡:针对视觉和语言任务的对象语义对齐预训练 VinVL:重新研究视觉语言模型中的视觉表示 更新 月28日:已发布有关下游任务的模型,请检查 。 2020年5月15日:发布了用于下游任务微调的预训练模型,数据集和代码。 01/13/2021:我们的新工作提出了OSCAR +,这是OSCAR的改进版本,并提供了更好的对象属性检测模型来提取V + L任务的特征。 VinVL的工作在这里的所有七个V + L任务中都达到了SOTA性能。请继续关注模型和代码发布。 20年3月8日:发布了Oscar +预培训代码,请检查的最后一部分。 VinVL中的所有图像功能和模型检查点也已发布。请检查以获取详细信息。 介绍 该存储库包含重现《提出的结果所必需的源代码。我们提出了一种新的交叉模式预训练方法Oscar (对象语义对齐的预训练)。它利用在图像中检测到的对象标签作为锚点,从而大大简化了图像-文本对齐方
【文件预览】:
Oscar-master
----setup.py(1KB)
----.gitignore(1KB)
----INSTALL.md(713B)
----DOWNLOAD.md(2KB)
----requirements.txt(65B)
----VinVL_MODEL_ZOO.md(22KB)
----oscar()
--------datasets()
--------run_retrieval.py(34KB)
--------__init__.py(22B)
--------run_nlvr.py(48KB)
--------modeling()
--------utils()
--------run_captioning.py(45KB)
--------run_oscarplus_pretrain.py(24KB)
--------run_vqa.py(61KB)
--------run_gqa.py(55KB)
----SECURITY.md(3KB)
----CODE_OF_CONDUCT.md(444B)
----VinVL_DOWNLOAD.md(5KB)
----LICENSE(1KB)
----.gitmodules(197B)
----README.md(5KB)
----transformers()
----MODEL_ZOO.md(15KB)
----coco_caption()
----docs()
--------pretrain_corpus.PNG(171KB)
--------oscar_logo.png(118KB)
--------oscar.PNG(332KB)