《计算机应用研究》|Application Research of Computers

视觉—语言—行为:视觉语言融合研究综述

Vision-language-action: survey of integration of vision and language

免费全文下载 (已被下载 次)  
获取PDF全文
作者 李睿,郑顺义,王西旗
机构 武汉大学 遥感信息工程学院
统计 摘要被查看 次,已被下载
摘要 通过语言给予智能体指示使其完成通用性的任务是人工智能领域的愿景之一。近年来有越多越多的学者试图通过融合计算机视觉与自然语言处理领域的相关技术以期实现此目标。为了及时跟进相关领域的研究,把握视觉与语言融合方向前沿方向,对于视觉—语言—行为最新进展进行综述。首先简单介绍了融合视觉与语言的弱耦合尝试,之后重点综述了视觉—语言—行为这一最新方向相关的视觉语言导航、具身问答及其相似研究,最后总结了制约此领域发展的关键问题及可能的解决方案。
关键词 计算机视觉;自然语言处理;深度学习;视觉语言导航;具身问答
基金项目 国家自然科学基金资助项目(41671452)
本文URL http://www.arocmag.com/article/02-2020-12-001.html
收稿日期
修回日期
页码 -
中图分类号 TP181
文献标志码