文件名称:结合引导解码和视觉注意力的图像语义描述模型
文件大小:963KB
文件格式:PDF
更新时间:2024-05-20 08:48:50
图像描述 多示例学习 引导解码
针对输入的图像视觉信息不能在每一步解码过程中动态调整,同时为了提高图像语义描述模型的精度和泛化能力,提出了一种结合引导解码和视觉注意力机制的双层长短时记忆(long short term memory,LSTM)网络的图像语义描述模型。将提取到的图像的视觉和目标特征通过一个引导网络建模后送入LSTM网络的每一时刻,实现端到端的训练过程;同时设计了基于图像通道特征的视觉注意力机制,提高了模型对图像细节部分的描述。利用MSCOCO和Flickr30k数据集对模型进行了训练和测试,结果显示模型性能在不同的评价指标上都得到了提升。