《计算机应用研究》|Application Research of Computers

多模态深度学习综述

Survey of multimodal deep learning

免费全文下载 (已被下载 次)  
获取PDF全文
作者 刘建伟,丁熙浩,罗雄麟
机构 中国石油大学(北京) 自动化系
统计 摘要被查看 次,已被下载
摘要 模态是指事物发生或存在的方式,如文字、语言、声音、图形等。多模态学习是指学习多个模态中各个模态的信息,并且实现各个模态的信息的交流和转换。多模态深度学习是指建立可以完成多模态学习任务的神经网络模型。多模态学习的普遍性和深度学习的热度赋予了多模态深度学习鲜活的生命力和发展潜力。旨在多模态深度学习的发展前期,总结当前的多模态深度学习,发现在不同的多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成,以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各问题进行子分类和论述,同时列举了为解决各问题产生的神经网络模型。最后论述了实际多模态系统,多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。
关键词 多模态;深度学习;神经网络;模态表示;模态传译;模态融合;模态对齐
基金项目
本文URL http://www.arocmag.com/article/02-2020-06-002.html
收稿日期
修回日期
页码 -
中图分类号 TP181
文献标志码