《计算机应用研究》|Application Research of Computers

基于WMF_LDA主题模型的文本相似度计算

Text similarity calculation based on WMF_LDA topic model

免费全文下载 (已被下载 次)  
获取PDF全文
作者 张璐,芦天亮,杜彦辉
机构 中国人民公安大学 a.信息技术与网络安全学院;b.网络空间安全与法治协同创新中心,北京 100038
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2019)10-007-2916-04
DOI 10.19734/j.issn.1001-3695.2018.04.0219
摘要 利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,提出的方法在准确度上也有一定程度的提升。
关键词 词语语义; 词语合并; 词性筛选; 文本相似度
基金项目 国家重点研发计划重点专项资助项目(2017YFB0802804)
国家自然科学基金资助项目(61602489)
中国人民公安大学2018年基本科研业务费科研机构项目(2018JKF504)
本文URL http://www.arocmag.com/article/01-2019-10-007.html
英文标题 Text similarity calculation based on WMF_LDA topic model
作者英文名 Zhang Lu, Lu Tianliang, Du Yanhui
机构英文名 a.Information Technology & Network Security Institute,b.CIC of Security & Law for Cyberspace,People's Public Security University of China,Beijing 100038,China
英文摘要 The calculation of text similarity with LDA(latent Dirichlet allocation) model takes into account the semantic features, but it has the disadvantages of a large number of words, unconformity of the semantics of words, and the inability to dig and exploit the inter-domain differences inherent in texts of different categories. This paper proposed WMF_LDA topic model(word merging and filtering_LDA). This model mapped domain words and synonyms, and filtered the words based on POS. Finally, it used LDA theme on the processed result. Experiments show that this method greatly reduces the amount of words during modeling, reduces the time consumption of the modeling process, and improves the speed of the final text clustering. And compared with other text similarity methods, the proposed method also has a certain degree of improvement in accuracy.
英文关键词 word semantics; word merging; POS(part-of-speech) filtering; text similarity
参考文献 查看稿件参考文献
 
收稿日期 2018/4/20
修回日期 2018/5/16
页码 2916-2919,2951
中图分类号 TP391.1
文献标志码 A