《计算机应用研究》|Application Research of Computers

结合引导解码和视觉注意力的图像语义描述模型

Image semantic description model based on guided decoding and visual attention

免费全文下载 (已被下载 次)  
获取PDF全文
作者 马坤阳,林金朝,庞宇
机构 重庆邮电大学 光电信息感测与传输重庆市重点实验室
统计 摘要被查看 次,已被下载
摘要 针对输入的图像视觉信息不能在每一步解码过程中动态调整,同时为了提高图像语义描述模型的精度和泛化能力,提出了一种结合引导解码和视觉注意力机制的双层长短时记忆(long short term memory network,LSTM)网络的图像语义描述模型。将提取到的图像的视觉和目标特征通过一个引导网络建模后送入LSTM网络的每一时刻,实现端到端的训练过程。同时设计了基于图像通道特征的视觉注意力机制,提高了模型对图像细节部分的描述。利用MSCOCO和Flickr30K数据集对模型进行了训练和测试,结果显示模型性能在不同的评价指标上都得到了提升。
关键词 图像描述;多示例学习;引导解码;注意力机制
基金项目 国家自然科学基金资助项目(61471075,61671091)
重庆科委自然科学基金资助项目(cstc2016jcyjA0347)
重庆高校创新团队建设计划
本文URL http://www.arocmag.com/article/02-2020-10-062.html
收稿日期
修回日期
页码 -
中图分类号 TP391.41
文献标志码