文件名称:Image_Captioning
文件大小:2.51MB
文件格式:ZIP
更新时间:2024-05-16 06:25:20
JupyterNotebook
概述 混合系统,使用多层卷积神经网络(CNN)提取图像中的特征,并使用长短期记忆(LSTM)来使用生成的关键字准确地构造有意义的句子 解码器将目标图像与大型数据集进行比较,并生成准确的描述。 使用标准评估矩阵(例如BLUE分数)评估提出的模型的性能。 数据源 使用Flickr 8K图像字幕数据集 在Flickr8k数据集中,每个图像都与描述实体和事件的五个不同标题相关联 建筑学 技术方法 为了对文本序列进行编码,我们将每个单词映射到200维向量。 为此,将使用预训练的手套模型。 GloVe是一种无监督学习算法,用于获取单词的矢量表示 对来自语料库的汇总全局单词-单词共现统计信息进行训练,并且所得表示形式展示了单词向量空间的有趣线性子结构。 使用波束搜索算法和贪婪搜索算法预测输出 使用Tenserboard进行单词矢量化 结果 未来范围 使用基于注意力的模型可以改善结果
【文件预览】:
Image_Captioning-main
----Image_Captioning.ipynb(7.8MB)
----Readme.md(2KB)
----Img()
--------Architechture1.JPG(21KB)
--------Results2.JPG(92KB)
--------WordVetorization2.JPG(48KB)
--------Dataset.JPG(52KB)
--------Results1.JPG(78KB)
--------Resutls3.JPG(78KB)
--------WordVetorization1.JPG(37KB)