文件名称:使用 CNN 长短期记忆网络的图像字幕-研究论文
文件大小:505KB
文件格式:PDF
更新时间:2024-06-30 00:50:18
Image captioning; Natural language
近年来,各种深度学习模型已被用于从图像中获取文本信息。 深度学习在开发和训练方面取得了成功,并在大型(更多层)神经网络中得到了应用。 神经网络提供了灵活性,并提供了有用且可靠的解决方案。 可以通过卷积神经网络 (CNN)、循环神经网络 (RNN)、深度神经网络 (DNN) 和长短期记忆 (LSTM) 来评估真实世界的图像字幕。 在这些高级模型中,与 DNN 相比,CNN 和 LSTM 的表现要好得多。 结果表明,CNN 和 LSTM 模型在映射特征方面更加灵活和实用。 CNN 可以减少频率变化,因此适用于具有空间表示的模型。 CNN 成功地满足了与计算机视觉、图像分类和对象检测相关的任务。 LSTMs 迎合时间建模,具有序列并可以对它们执行预测的任务。 LSTM 在自然语言处理任务中有着广泛的应用,因为它们不会改变整个信息,而是稍微改变它,或者它们可以选择性地忘记和记住信息。 CNN 长短期记忆网络 (CNN-LSTM) 架构的组合非常适合处理具有图像等空间输入的序列预测模型。 我们观察到合并模型 CNN-LSTM 证明机器可以很好地看到图像,因为图像被正确标注。