《计算机应用研究》|Application Research of Computers

基于硬注意力机制的多模态视频字幕的处理

Hard attention based multi-modal Fusion for video caption generation

免费全文下载 (已被下载 次)  
获取PDF全文
作者 郭宁宁,蒋林华
机构 上海理工大学 光电信息与计算机工程学院
统计 摘要被查看 次,已被下载
摘要 传统的视频字幕生成模型大多都采用编码器-译码器框架。在编码阶段,使用卷积神经网络对视频进行处理。在解码阶段,使用长短期记忆网络生成视频的相应字幕。基于视频的时序相关性和多模态性,提出了一个混合型模型即基于硬注意力的多模态视频字幕的生成模型。该模型在编码阶段使用不同的融合模型将视频和音频两种模态进行关联,在解码阶段基于长短期记忆网络的基础上加入了硬注意力机制来生成对视频的描述。这个混合模型在数据集MSR-VTT(Microsoft Research Video to Text)上得到的机器翻译指标较基础模型有0.2%~3.8%的提升。根据实验结果可以判定基于硬注意力机制的多模态混合模型可以生成视频的精准描述字幕。
关键词 编码器-解码器;多模态融合;注意力机制
基金项目
本文URL http://www.arocmag.com/article/02-2021-02-061.html
收稿日期
修回日期
页码 -
中图分类号 TP183
文献标志码