《计算机应用研究》|Application Research of Computers

基于空间注意力推理机制的视觉问答算法研究

Algorithm of visual question answering based on spatial attention reasoning mechanism

免费全文下载 (已被下载 次)  
获取PDF全文
作者 李智涛,周之平,叶琴
机构 南昌航空大学 信息工程学院
统计 摘要被查看 次,已被下载
摘要 视觉问答(Visual Question Answering,VQA)是一种基于图像中视觉信息和问题中文本信息共同理解的多模态问题。针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(Self-Attention,SA)和空间推理注意力模块(Spatial Reasoning Attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域。模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率。
关键词 视觉问答;注意力机制;多模态学习;自注意力;空间推理注意力
基金项目 国家自然科学基金资助项目(71761028)
本文URL http://www.arocmag.com/article/02-2021-02-016.html
收稿日期
修回日期
页码 -
中图分类号 TP391
文献标志码