文件名称:Image-Captioning-
文件大小:61.97MB
文件格式:ZIP
更新时间:2024-04-24 20:05:44
JupyterNotebook
图片字幕- 在这个项目中,我系统地分析了基于深度神经网络的图像标题生成方法。 以图像作为输入,该方法可以输出描述图像中内容的英语句子。 我分析了该方法的三个组成部分:卷积神经网络(CNN),递归神经网络(RNN)和句子生成。 通过用三种最先进的体系结构代替CNN部分,我使用了ResNet50。 我还提出了简化版本的门控循环单元(GRU)作为新的循环层。 当与长短期记忆(LSTM)方法进行比较时,简化的GRU可获得可比的结果。 但是它几乎没有参数可以节省内存,并且训练速度更快。 实验表明,改进的方法可以产生与最新方法相当的字幕,而所需的训练记忆较少
【文件预览】:
Image-Captioning--main
----model_weights()
--------model_9.h5(16.19MB)
----image.ipynb(480KB)
----app.py(646B)
----caption.py(2KB)
----README.md(868B)
----saved()
--------encoded_test_features.pkl(7.87MB)
--------encoded_train_features.pkl(47.21MB)
----templates()
--------index.html(2KB)
----storage()
--------word_to_idx.pkl(33KB)
--------idx_to_word.pkl(33KB)