《计算机应用研究》|Application Research of Computers

基于层次注意力机制的高效视觉问答模型

Efficient image question answering model based on layered attention mechanism

免费全文下载 (已被下载 次)  
获取PDF全文
作者 吝博强,田文洪
机构 电子科技大学 信息与软件工程学院
统计 摘要被查看 次,已被下载
摘要 视觉问答(visual question answering,VQA)是深度学习领域的一个新挑战,需要模型同时根据问题的语义和图片的内容做推理并给出正确答案。针对视觉问答图片输入的多样性,设计了一种由两层注意力机制堆叠组成的层次注意力机制,帮助模型定位图片中与问题相关的信息,其中第一层注意力机制使用目标检测网络提取图片中物体的特征,第二层注意力机制引入问题特征。同时改进了现有的特征融合方式,消除对输入特征尺寸的限制。VQA数据集的测试结果显示,层次注意力机制使计数类问题的回答准确率提升4-5%,其他类型的问题回答准确率也有小幅提升。
关键词 视觉问答;注意力机制;特征融合;目标检测
基金项目 国家自然科学基金资助项目(61672136,61828202)
本文URL http://www.arocmag.com/article/02-2021-02-058.html
收稿日期
修回日期
页码 -
中图分类号 TP391.41
文献标志码