文件名称:OpenViDial:OpenViDial数据集的代码,模型和数据集
文件大小:1.56MB
文件格式:ZIP
更新时间:2024-06-03 06:39:08
Python
打开视频 此存储库包含有关OpenViDial数据集的下载说明,以及用于在论文中重现结果的代码(请参见)。 介绍 当人们交谈时,说话者接下来要说的话很大程度上取决于他所看到的。 OpenViDial是用于此目的的大规模多模块对话数据集。 对话转弯和视觉上下文是从电影和电视连续剧中提取的,其中每个对话转弯都与发生对话的相应视觉上下文配对。 OpenViDial总共包含110万个对话回合,因此图像中存储了110万个可视上下文。 以下是视觉上下文至关重要的两个简短对话。 OpenViDial的详细统计 属性 价值 转弯数量 110万 图片数量 110万 BPE之前的语音量 70K BPE后的口音大小 30K 每集的平均时长 14 每转平均长度 7.6 下载数据集 ***** 2021年3月12日新功能:测试/有效数据集上的新cnn / rcnn功能***** 我们修复了有效/测试数据集
【文件预览】:
OpenViDial-main
----.gitignore(2KB)
----README.md(8KB)
----video_dialogue_model()
--------tasks()
--------extract_features()
--------model()
--------__init__.py(122B)
--------data()
----tests()
--------task.py(626B)
----train()
--------train.py(12KB)
--------generate.py(15KB)
--------stats.py(3KB)
----scripts()
--------preprocess_text_data.sh(791B)
--------reproduce_baselines()
--------mmi()
--------preprocess_video_data.sh(470B)
----requirements.txt(103B)
----demo_data()
--------model1.png(15KB)
--------model3.png(223KB)
--------dataset.png(637KB)
--------model2.png(94KB)
--------attention_over_objects.png(587KB)
----preprocess()
--------preprocess_video_data.py(4KB)
--------preprocess_nmt_data.py(2KB)
--------truncate_data.py(2KB)