文件名称:vln-bert:论文“使用Web上的图像-文本对改善视觉和语言导航”的代码(ECCV 2020)
文件大小:59KB
文件格式:ZIP
更新时间:2024-06-14 08:08:20
Python
通过网络上的图像-文本对改善视觉和语言导航 Arjun Majumdar,Ayush Shrivastava,Stefan Lee,Peter Anderson,Devi Parikh和Dhruv Batra 论文: : 模型动物园 可以通过以下链接访问各种预先训练的VLN-BERT权重: 培训前阶段 工作编号 Val Unseen SR 网址 0 没有预训练 174631 30.52% 待定 1个 1个 175134 45.17% 待定 3 1和2 221943 49.64% 2个 1和3 220929 50.02% 4 1、2和3(完整模型) 220825 59.26% 使用说明 请按照的说明设置此代码库。 这些说明将引导您完成几个步骤,包括通过使用预训练的对象检测器提取区域来预处理Matterport3D全景图。 训练 要进行预训练的第3阶段,请首
【文件预览】:
vln-bert-master
----vilbert()
--------file_utils.py(8KB)
--------__init__.py(0B)
--------optimization.py(8KB)
--------README.md(1KB)
--------vilbert.py(67KB)
----vln_bert.py(2KB)
----train.py(20KB)
----utils()
--------__init__.py(0B)
--------dataset()
--------cli.py(5KB)
----test.py(6KB)
----scripts()
--------calculate-metrics.py(7KB)
--------grid-search.py(4KB)
--------download-auxiliary-data.py(9KB)
--------combine-models.py(3KB)
--------matterport3D-updown-features()
--------slurm()
----requirements.txt(165B)
----README.md(2KB)
----.gitignore(29B)
----INSTALL.md(2KB)