《计算机应用研究》|Application Research of Computers

基于复合图文特征的视觉问答模型研究

Research on visual question answering model based on composite graphic features

免费全文下载 (已被下载 次)  
获取PDF全文
作者 邱南,顾玉宛,石林,李宁,庄丽华,徐守坤
机构 常州大学 计算机与人工智能学院 阿里云大数据学院
统计 摘要被查看 次,已被下载
摘要 针对当前主流视觉问答(visual question answering,VQA)任务使用区域特征作为图像表示而面临的训练复杂度高、推理速度慢等问题,提出一种基于复合视觉语言的卷积网络(composite visionlinguistic convnet,CVlCN)来对视觉问答任务中的图像进行表征。提出的方法将图像特征和问题语义通过复合学习表示成复合图文特征,然后从空间和通道上计算复合图文特征的注意力分布,以选择性地保留与问题语义相关的视觉信息。在VQA-v2数据集上的测试结果表明,提出的方法在视觉问答任务上的准确率有明显的提升,整体准确率达到64.4%。模型的计算复杂度较低且推理速度更快。
关键词 视觉问答;复合视觉语言特征;区域特征;多模态融合
基金项目 国家自然科学基金资助项目(61906021)
常州市城市大数据分析与应用技术重点实验室资助项目(CM20193007)
本文URL http://www.arocmag.com/article/02-2021-09-002.html
收稿日期
修回日期
页码 -
中图分类号 TP391
文献标志码