《计算机应用研究》|Application Research of Computers

基于关键词相似度的短文本分类方法研究

Research on short text classification based on keyword similarity

免费全文下载 (已被下载 次)  
获取PDF全文
作者 张振豪,过弋,韩美琪,王吉祥
机构 1.华东理工大学 信息科学与工程学院,上海 200237;2.石河子大学 信息科学与技术学院,新疆 石河子 832003;3.大数据流通与交易技术国家工程实验室——商业智能与可视化技术研究中心,上海 200436
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2020)01-005-0026-04
DOI 10.19734/j.issn.1001-3695.2018.04.0440
摘要 在传统的文本分类中,文本向量空间矩阵存在维数灾难和极度稀疏等问题,而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究,提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型;然后通过TextRank获得每一类文本的关键词,在关键词集合中进行去重操作作为特征集合。对于任意特征,通过词向量模型计算短文本中每个词与该特征的相似度,选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机(SVM)作为分类器训练算法。实验基于中文新闻标题数据集,与传统的短文本分类方法相比,分类效果约平均提升了6%,从而验证了该框架的有效性。
关键词 词向量; 特征选择; 短文本分类; 特征权重
基金项目 国家自然科学基金资助项目(61462073)
上海市科学技术委员会项目(17DZ1101003,18511106602)
本文URL http://www.arocmag.com/article/01-2020-01-005.html
英文标题 Research on short text classification based on keyword similarity
作者英文名 Zhang Zhenhao, Guo Yi, Han Meiqi, Wang Jixiang
机构英文名 1.School of Information Science & Engineering,East China University of Science & Technology,Shanghai 200237,China;2.School of Information Science & Technology,Shihezi University,Shihezi Xinjiang 832003,China;3.Business Intelligence & Visualization Research Center,National Engineering Laboratory for Big Data Distribution & Exchange Technologies,Shanghai 200436,China
英文摘要 In order to cope with the problem of data sparsity and curse of dimensionality in text classification, this paper proposed a short text classification framework by taking keyword as features and assigning keyword similarity as feature weight. First, it trained a word2vec model with large corpus data, then got keywords of each category text by textrank. And it selected unique keywords from the keywords collection as features. For each feature, it calculated the similarity of words in the short text by word2vec model, and assigned the maximum similarity as the weight of the feature. Finally, it chose KNN and SVM as classifier. Experiments on dataset of Chinese news headlines demonstrate that the accuracy outperforms other usual methods by 6%.
英文关键词 word embedding; feature selecting; short text classification; feature weighting
参考文献 查看稿件参考文献
 
收稿日期 2018/4/27
修回日期 2018/7/2
页码 26-29
中图分类号 TP391.1
文献标志码 A