《计算机应用研究》|Application Research of Computers

基于多语义因子分层聚类的文本特征提取方法

Text feature extraction based on hierarchical clustering with multiple semantic factors

免费全文下载 (已被下载 次)  
获取PDF全文
作者 王靖,柳青,张德海,赵华,杨云
机构 云南大学 软件学院;云南大学 信息学院
统计 摘要被查看 次,已被下载
摘要 针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据skip-gram + Huffman softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。
关键词 语义;文本特征;分层聚类;词向量
基金项目 国家自然科学基金项目(61562093,61263043)
本文URL http://www.arocmag.com/article/02-2020-10-008.html
收稿日期
修回日期
页码 -
中图分类号 TP181
文献标志码