《计算机应用研究》|Application Research of Computers

基于序列到序列模型的无监督文本简化方法

Unsupervised text simplification with sequence-to-sequence model

免费全文下载 (已被下载 次)  
获取PDF全文
作者 李天宇,李云,钱镇宇
机构 扬州大学 信息工程学院
统计 摘要被查看 次,已被下载
摘要 训练基于序列到序列(Seq2Seq)的文本简化模型需要大规模平行语料库,但是规模较大且标注质量较好的语料却难以获得。为此,提出一种无监督文本简化方法,使模型的学习仅需要无标注的复杂句和简单句语料。首先,利用去噪自编码器(denoising autoencoder)分别从简单句语料和复杂句语料中学习,获取简单句的自编码器和复杂句的自编码器。然后,组合两个自编码器形成初始的文本简化模型和文本复杂化模型。最后,利用回译策略(Back-translation)将无监督文本简化问题转换为监督问题,不断迭代优化文本简化模型。通过在标准数据集上实验验证,该方法在通用指标BLEU和SARI上均优于现有的无监督模型,同时在词汇级别和句法级别均有简化效果。
关键词 文本简化;无监督;序列到序列模型;去噪自编码器
基金项目 国家自然科学基金资助项目(61703362)
江苏省研究生科研与实践创新计划项目(SJCX19_0888)
本文URL http://www.arocmag.com/article/02-2021-01-031.html
收稿日期
修回日期
页码 -
中图分类号 TP391
文献标志码