文件名称:HERO:EMNLP 2020研究论文“ HERO”的研究代码
文件大小:167KB
文件格式:ZIP
更新时间:2024-05-22 13:18:27
transformers pytorch vision-and-language tvr pretraining
HERO:用于视频+语言全方位表示预训练的分层编码器 这是 (EMNLP 2020)的官方资料库。 该存储库当前支持在 , , , , 和上微调HERO。 发布了最佳的预训练检查点(在和数据集上)。 还提供了电视数据集上的HERO预培训代码。 此某些代码是从 , , , , TVRetrieval , TVCaption和UNITER提供的开源实现中复制/修改的。 使用SlowFast和ResNet-152提取视觉框架特征。 功能提取代码可从HERO_Video_Feature_Extractor获得 要求 我们提供Docker映像,以便于复制。 请安装以下内容: NVIDIA驱动程序(418+), Docker (19.03+), nvidia-container-toolkit 。 我们的脚本要求用户具有docker组成员身份,以便可以在没有sudo的情况下运行