文件名称:image_captioning:Tensorflow实现“显示,出席和讲述”
文件大小:74.11MB
文件格式:ZIP
更新时间:2024-05-19 07:29:56
Python
介绍 这种用于图像字幕的神经系统大致基于Xu等人的论文“ Show,Attend and Tell:具有视觉注意的神经图像字幕生成”。 (ICML2015)。 输入是图像,输出是描述图像内容的句子。 它使用卷积神经网络从图像中提取视觉特征,并使用LSTM递归神经网络将这些特征解码为句子。 结合了软注意力机制来改善字幕的质量。 该项目使用Tensorflow库实现,并允许对CNN和RNN部件进行端到端培训。 先决条件 Tensorflow () NumPy () OpenCV () 自然语言工具包(NLTK) () 熊猫() Matplotlib () tqdm () 用法 准备:在下载COCO train2014和val2014数据。 放入文件夹中的COCO train2014图像train/images ,并把文件captions_train2014.json在文件夹trai
【文件预览】:
image_captioning-master
----eval.sh(193B)
----utils()
--------misc.py(2KB)
--------__init__.py(0B)
--------coco()
--------nn.py(4KB)
--------vocabulary.py(3KB)
--------ilsvrc_2012_mean.npy(1.5MB)
----train()
--------images()
--------readme(43B)
----config.py(2KB)
----models()
--------readme(39B)
--------trim_model.py(610B)
----main.py(2KB)
----model.py(23KB)
----dataset.py(7KB)
----examples()
--------COCO_val2014_000000018295_result.jpg(186KB)
--------COCO_val2014_000000153130_result.jpg(99KB)
--------COCO_val2014_000000072776_result.jpg(126KB)
--------COCO_val2014_000000370315_result.jpg(73KB)
--------COCO_val2014_000000222261_result.jpg(166KB)
--------examples.jpg(1.39MB)
--------COCO_val2014_000000535467_result.jpg(150KB)
--------COCO_val2014_000000261185_result.jpg(131KB)
--------COCO_val2014_000000214274_result.jpg(112KB)
----test()
--------results()
--------images()
----LICENSE.md(1KB)
----README.md(4KB)
----base_model.py(12KB)
----val()
--------images()
--------readme(41B)
----summary()
--------readme(64B)