《计算机应用研究》|Application Research of Computers

基于语义分布相似度的主题模型

Semantic Distribution Similarity Based Topic Model

免费全文下载 (已被下载 次)  
获取PDF全文
作者 居亚亚,杨璐,严建峰
机构 苏州大学 计算机科学与技术学院
统计 摘要被查看 次,已被下载
摘要 潜在狄利克雷分布(LDA)是一种流行的三层贝叶斯概率模型,其实现了文本与文本中的单词在主题层次上的聚类。LDA以词袋(Bag of Words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(Expectation Maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词-单词和文档-主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行主题建模算法表现的更加优越,同时该模型提高了收敛速度和模型精度。
关键词 潜在狄利克雷分布;语义分布相似度;主题模型;GPU模型
基金项目 国家自然科学基金资助项目(61572339,61272449)
江苏省科技支撑计划重点项目(BE2014005)
本文URL http://www.arocmag.com/article/02-2019-12-017.html
收稿日期
修回日期
页码 -
中图分类号 TP391
文献标志码