《计算机应用研究》|Application Research of Computers

一种面向文本分类的特征向量优化方法

Feature vector optimization method for text classification

免费全文下载 (已被下载 次)  
获取PDF全文
作者 郭正斌,张仰森,蒋玉茹
机构 北京信息科技大学 智能信息处理研究所,北京 100192
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2017)08-2299-04
DOI 10.3969/j.issn.1001-3695.2017.08.013
摘要 对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先利用剔除近义词方法优化文本向量中的特征项;然后提出贡献率因子的概念,并利用其优化特征值。实验表明,相比朴素贝叶斯分类方法其效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到优化特征向量、提高文本分类效果的目的。
关键词 机器学习;Mahout;特征向量;向量优化;文本分类
基金项目 国家自然科学基金资助项目(61370139)
北京市教委科研计划面上项目(KM201411232014)
北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519)
北京信息科技大学促进高校内涵发展专项项目(5111623403)
本文URL http://www.arocmag.com/article/01-2017-08-013.html
英文标题 Feature vector optimization method for text classification
作者英文名 Guo Zhengbin, Zhang Yangsen, Jiang Yuru
机构英文名 InstituteofIntelligentInformationProcessing,BeijingInformationScience&TechnologyUniversity,Beijing100192,China
英文摘要 It is a general method that using vector space model to construct a vector to represent text. There are two methods to optimize the text vector: adjust weights or adjust dimensions. This paper proposed a novel feature vector optimization method for text classification. First it optimized the features in text vector by removing the synonyms. Second it proposed a novel concept——contributor factor to optimize the feature value. Result shows that the text classification accuracy of this work is increased by 0.96% compared with the Naive Bayesian method. Therefore, by removing synonyms and adjusting the weight of the feature words, it can achieve the goal of optimizing the text vector and improving the accuracy of text classification.
英文关键词 machine learning; Mahout; feature vector; vector optimization; text clustering
参考文献 查看稿件参考文献
  [1] 刘赫, 刘大有, 裴志利, 等. 一种基于特征重要度的文本分类特征加权方法[J] . 计算机研究与发展, 2009, 46(10):1693-1703.
[2] 张玉芳, 万斌候, 熊忠阳. 文本分类中的特征降维方法研究[J] . 计算机应用研究, 2012, 29(7):2541-2543.
[3] Van Der Maaten L J P, Postma P, Van Den Herik H J. Dimensionality reduction:a comparative review[J] . Journal of Machine Learning Research, 2007, 10(1):1-35.
[4] Fu Ruiji, Qin Bing, Liu Ting. Open-categorical text classification based on multi-LDA models[J] . Soft Computing, 2015, 19(1):29-38.
[5] 王子慕. 一种利用TF_IDF方法结合词汇语义信息的文本相似度量方法研究[D] . 长春:吉林大学, 2015.
[6] 姚清耘, 刘功申, 李翔. 基于向量空间模型的文本聚类算法[J] . 计算机工程, 2008, 34(18):39-41.
[7] 施聪莺, 徐朝军, 杨晓江. TFIDF算法研究综述[J] . 计算机应用, 2009, 29(S1):167-170.
[8] 陈治纲, 何丕廉, 孙越恒. 基于向量空间模型的文本分类系统的研究与实现[J] . 中文信息学报, 2008, 19(1):36-41.
[9] 张俊丽. 文本分类中的关键技术研究[D] . 武汉:华中师范大学, 2008.
[10] 庞观松, 蒋盛益. 文本自动分类技术研究综述[J] . 情报理论与实践, 2012, 35(2):123-128.
[11] 耿丽娟, 李星毅. 用于大数据分类的KNN算法研究[J] . 计算机应用研究, 2014, 31(5):1342-1344, 1373.
[12] Jiang Liangxiao, Li Chaochun, Wang Shasha, et al. Deep feature weighting for naive Bayes and its application to text classification[J] . Engineering Applications of Artificial Intelligence, 2016, 52(C):26-39.
[13] Taheri S, Yearwood J, Mammadov M, et al. Attribute weighted naive Bayes classifier using a local optimization[J] . Neural Computing and Applications, 2014, 24(5):995-1002.
[14] 曹洋, 成颖, 裴雷. 基于机器学习的自动文摘研究综[J] . 图书情报工作, 2014, 58(18):122-130.
[15] 陈祎荻, 秦玉平. 基于机器学习的文本分类方法综述[J] . 渤海大学学报:自然科学版, 2010, 31(2):201-205.
[16] 马宾, 殷立峰. 一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速分类算法[J] . 现代图书情报技术, 2015, 31(2):78-84.
[17] 刘海峰, 王元元, 张学仁, 等. 文本分类中基于位置和类别信息的一种特征降维方法[J] . 计算机应用研究, 2008, 25(8):2292-2294.
[18] 盛秋艳, 何文广. 一种改进的向量空间降维方法[J] . 黑龙江工程学院学报, 2011, 25(1):60-62.
[19] 武亚昆, 段富, 尹雪梅. 分类器准确率评估的研究[J] . 电脑开发与应用, 2011, 24(4):10-12.
收稿日期 2016/5/27
修回日期 2016/7/7
页码 2299-2302,2348
中图分类号 TP391.1
文献标志码 A