《计算机应用研究》|Application Research of Computers

一种利用情感词统计信息构造文本特征表示的方法

Novel method of using statistical information to construct feature representation in sentiment classification

免费全文下载 (已被下载 次)  
获取PDF全文
作者 韩彤晖,杨东强,马宏伟
机构 山东建筑大学 计算机科学与技术学院,济南 250100
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2019)07-037-2087-06
DOI 10.19734/j.issn.1001-3695.2018.01.0035
摘要 数据表达方法和文本分类的效果密切相关。文本分类中常用的数据表达方法主要包括基于词典的共现频率方法、基于隐性语义空间(LSA/SVD)的方法、基于神经网络语言模型的方法。提出一种利用单词的统计特征创建文本分类中特征空间的表达方法。该方法利用单词的七种常见的统计特征,通过相关性分析选取相对独立的统计特征创建特征空间。该方法能够有效降低文本向量空间的维度,同时降低了语义空间内的计算复杂度。情感分类实验的结果表明,与现有的单词的数据表达方法相比,该方法能够显著提高分类算法的准确率和召回率。
关键词 数据表达; 统计特征; 情感分类
基金项目 国家社科基金资助项目(17BYY19)
国家教育部人文社科基金资助项目(15YJA740054)
本文URL http://www.arocmag.com/article/01-2019-07-037.html
英文标题 Novel method of using statistical information to construct feature representation in sentiment classification
作者英文名 Han Tonghui, Yang Dongqiang, Ma Hongwei
机构英文名 School of Computer Science & Technology,Shandong Jianzhu University,Jinan 250100,China
英文摘要 Data representation is closely related to the performance of text classification method. There exist three typical methods, namely lexical co-occurrence, latent semantic analysis(LSA) or latent semantic analysis(LSA) or singular value decomposition(SVD), and various neural language models. This paper introduced a feature space construction method only using statistical information. The method first collected 7 types of common word's statistical information, and then chose independent features through correlation analysis, to contrast word feature space vector. This method could effectively reduce the dimension size of vector space models, and could effectively lower computation complexity in deriving latent semantic space. The sentiment classification results show that in contrast with those current data representation methods, this method can significantly improve the accuracy and recall rates for different classifier.
英文关键词 data representation; statistical features; sentiment classification
参考文献 查看稿件参考文献
 
收稿日期 2018/1/19
修回日期 2018/3/14
页码 2087-2092
中图分类号 TP391.1
文献标志码 A