文件名称:image_captioning:使用在COntext(MS COCO)数据集中的Microsoft Common Objects上训练的CNN-RNN模型生成图像的标题
文件大小:2.09MB
文件格式:ZIP
更新时间:2024-06-03 14:16:08
nlp computer-vision cnn pytorch image-captioning
图片字幕 介绍 建立一个模型以从图像生成字幕。 给定图像后,模型可以用英语描述图像中的内容。 为了实现这一点,我们的模型由一个编码器(一个CNN)和一个解码器(一个RNN)组成。 为CNN编码器提供了用于分类任务的图像,其输出被馈送到RNN解码器,后者输出英语句子。 该模型及其超参数的调整基于论文和。 我们使用微软Çommon在CO NTEXT(MS COCO)O bjects为这个项目。 它是用于场景理解的大规模数据集。 该数据集通常用于训练和基准化对象检测,分段和字幕算法。 有关下载数据的说明,请参见下面的“数据”部分。 代码 该代码可以分为两类: 笔记本-该项目的主要代码由一系列Jupyter笔记本构成: 0_Dataset.ipynb介绍数据集并绘制一些样本图像。 1_Preliminaries.ipynb加载和预处理数据并使用模型进行实验。 2_Training.ip
【文件预览】:
image_captioning-master
----.gitignore(1KB)
----3_Inference.ipynb(1.24MB)
----README.md(4KB)
----vocabulary.py(4KB)
----LICENSE(1KB)
----1_Preliminaries.ipynb(35KB)
----.gitattributes(49B)
----data_loader.py(8KB)
----utils.py(11KB)
----model.py(4KB)
----images()
--------decoder.png(233KB)
--------encoder-decoder.png(295KB)
--------coco-examples.jpg(95KB)
--------encoder.png(383KB)
----0_Dataset.ipynb(268KB)
----vocab.pkl(237KB)
----2_Training.ipynb(35KB)