《计算机应用研究》|Application Research of Computers

混合CTC/attention架构的端到端带口音普通话识别

Hybrid CTC/attention architecture for end-to-end multi-accent mandarin speech recognition

免费全文下载 (已被下载 次)  
获取PDF全文
作者 杨威,胡燕
机构 武汉理工大学 计算机科学与技术学院
统计 摘要被查看 次,已被下载
摘要 针对普通话语音识别任务中的多口音的识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(MultiHead attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器-解码器架构的网络,生成的模型表现了超过之前所有端到端模型,在数据堂开源的200h带口音数据集上达到了5.6%字错率和26.2%句错率。实验证明了本文提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性。
关键词 口音;混合CTC/Attention的端到端模型;多头注意力;链接时序主义;语音识别
基金项目 湖北省自然科学基金项目(2019CFC919)
本文URL http://www.arocmag.com/article/02-2021-03-012.html
收稿日期
修回日期
页码 -
中图分类号 TP912.34
文献标志码