《计算机应用研究》|Application Research of Computers

基于WBLDA的学术文献摘要主题聚类

Topic clustering of academic literature abstracts based on WBLDA

免费全文下载 (已被下载 次)  
获取PDF全文
作者 潘晓英,伍哲,陈柳,杨芳
机构 西安邮电大学 计算机学院;陕西省网络数据分析与智能处理重点实验室
统计 摘要被查看 次,已被下载
摘要 为使科研人员节省时间,高效阅读学术文献信息,提出一种学术文献摘要的主题聚类模型—优化主题数目作者层主题聚类模型(WBLDA)。首先,在预处理阶段,自定义符合学术文献摘要特点的分词词典和停用词词典,解决学术文献摘要分词不准确的问题;在特征提取阶段,提出增大词频特征提取法(ITF-IDF),使用词频放大法来增大词频,弱化文本长度对特征权重的影响,提取出更加符合学术文献摘要方向的特征词;最后,针对传统的主题模型忽略作者这一重要属性的缺点,在主题聚类模型中引入学术文献摘要的作者信息,构建文档—主题+作者—词的WBLDA模型,同时使用贝叶斯准则优化主题聚类模型的主题数。通过对学术文献摘要数据集仿真实验结果表明,与TF-IDF相比,增大词频特征提取法(ITF-IDF)的特征提取准确率更高;与LDA相比,优化主题数目作者层主题聚类模型(WBLDA)的聚类纯度和Fscore值也更高,选择出的主题更加准确,更能代表摘要的学术方向。
关键词 主题聚类;ITF-IDF;WBLDA;贝叶斯准则
基金项目 陕西省教育厅专项科研计划项目(17JK0687)
西安市科技创新引导项目(201805040YD18CG24(7)
本文URL http://www.arocmag.com/article/02-2020-08-006.html
收稿日期
修回日期
页码 -
中图分类号 TP391
文献标志码