文件名称:diverse_video_captioning
文件大小:136KB
文件格式:ZIP
更新时间:2024-04-14 05:44:25
Python
使用LSTM和POS的各种视频字幕 介绍 在本文中,我们提出了一种描述具有不同句子的短视频的方法。 我们使用编码器-解码器框架作为基准,并使用一种将句子语法嵌入向量中的方法来训练模型。 该合成矢量是句子长度(1d矢量)或POS矢量(使用变分自动编码器-VAE编码)。 我们使用MSRVTT和MSVD数据集来测试我们的方法。 预训练的Resnet(+ LSTM)和I3D网络用于静态和动态特征提取代码可用,并且在下面给出了要求和教程。 要求 Python3 张量流2.1 Microsoft COCO评估库(在与capsc13XX.py文件相同的地址中使用cocoeval.py和pycocoevalcap文件夹) sklearn和其他常见软件包 如何使用代码 例如:python capsc13main.py服务器1 --snrio trainpos --lastmodel 202101281
【文件预览】:
diverse_video_captioning-main
----images()
--------struct.png(35KB)
----capsc13pos.py(3KB)
----capsc13main.py(28KB)
----capsc13unused.py(5KB)
----capsc13preprocessi3d.py(15KB)
----LICENSE(1KB)
----capsc13data.py(15KB)
----README.md(7KB)
----capsc13dataset.py(13KB)
----capsc13eval.py(17KB)
----capsc13vae.py(20KB)
----capsc13preprocess_resnet.py(13KB)
----capsc13model.py(61KB)
----cocoeval.py(7KB)
----pycocoevalcap()
--------diversity_eval.py~(8KB)
--------eval.py(3KB)
--------bleu()
--------cider()
--------cider_scorer2.py(8KB)
--------diversity_eval.py(8KB)