文件名称:Deep-Image-Captioning
文件大小:5.27MB
文件格式:ZIP
更新时间:2024-04-27 20:52:57
JupyterNotebook
图像字幕生成器 这是图像字幕生成器的实现,该图像字幕生成器在给定图像的基础上生成字幕。 图像字幕是一项具有挑战性的任务,其中计算机视觉和自然语言处理都在产生字幕中发挥着作用。 该技术可用于许多新领域,例如帮助视力障碍者,医学图像分析,地理空间图像分析等。 它使用Xception模型进行转移学习,以利用模型的训练参数将图像编码为2048个特征向量,然后将其输入LSTM中,以根据Xception提取的特征来预测字幕。 项目流程 一个。 清除字幕数据 b。 使用VGG-16从图像中提取特征 C。 合并字幕和图像 d。 建立LSTM训练模型 e预测测试数据 模型架构 在此类模型中,编码器是什么? 改变其特征表示中的任何输入(即数字矢量)的神经网络是编码器。 例如,我们要使用图像来预测单词。 由于图像无法直接分辨出该单词应该是什么,因此我们想使用其功能来帮助我们确定下一个单词。 因此,用于更改图
【文件预览】:
Deep-Image-Captioning-main
----lstm_model.png(63KB)
----src()
--------Image Caption Generator.ipynb(4.96MB)
----LSTM.png(111KB)
----README.md(4KB)
----model_plot.png(58KB)
----test_images()
--------test_1.png(597KB)
--------test_3.png(272KB)
--------test_4.png(396KB)
--------test_2.png(295KB)