《计算机应用研究》|Application Research of Computers

基于语义分布相似度的主题模型

Semantic distribution similarity based topic model

免费全文下载 (已被下载 次)  
获取PDF全文
作者 居亚亚,杨璐,严建峰
机构 苏州大学 计算机科学与技术学院,江苏 苏州 215006
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2019)12-007-3553-05
DOI 10.19734/j.issn.1001-3695.2018.07.0385
摘要 潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词—单词和文档—主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。
关键词 潜在狄利克雷分布; 语义分布相似度; 主题模型; GPU模型
基金项目 国家自然科学基金资助项目(61572339,61272449)
江苏省科技支撑计划重点项目(BE2014005)
本文URL http://www.arocmag.com/article/01-2019-12-007.html
英文标题 Semantic distribution similarity based topic model
作者英文名 Ju Yaya, Yang Lu, Yan Jianfeng
机构英文名 School of Computer Science & Technology,Soochow University,Suzhou Jiangsu 215006,China
英文摘要 LDA is based on the bag-of-words, which simplifies the complexity of modeling, but makes the semantic coherence of topics poor, and text representation ability is not strong. To solve this problem, this paper proposed the semantic distribution similarity based topic model. This model used GPU(generalized Pólya urn) model to add word-word and document-topic semantic distribution similarity to guide topic modeling under the framework of EM(expectation maximization) algorithm, which weakened the effect of bag-of-words hypothesis on topics from the semantic association level. Experiments on four public datasets show that the semantic distribution similarity based topic model is superior to the currently popular topic modeling algorithms in terms of topic semantic coherence and text classification accuracy, and the model improves the convergence speed and topic accuracy.
英文关键词 latent Dirichlet allocation; semantic distribution similarity; topic model; GPU model
参考文献 查看稿件参考文献
 
收稿日期 2018/7/23
修回日期 2018/9/13
页码 3553-3557
中图分类号 TP391
文献标志码 A