《计算机应用研究》|Application Research of Computers

结合改进的CHI统计方法的TF-IDF算法优化

Optimization of TF-IDF algorithm combined with improved CHI statistical method

免费全文下载 (已被下载 次)  
获取PDF全文
作者 马莹,赵辉,李万龙,庞海龙,崔岩
机构 长春工业大学 计算机科学与工程学院
统计 摘要被查看 次,已被下载
摘要 特征项的选择和特征权值的计算是文本分类过程中两个至关重要的环节,对文本分类的结果起关键性作用。为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,在WEKA软件上采用了KNN(K-nearest neighbor)分类器和支持向量机(SVM)分类器分别对微博情感语料进行分类,该实验结果表明,新方法在文本分类的准确性上有明显的提高。
关键词 文本分类;CHI统计;TF-IDF算法;特征选择
基金项目 国家自然科学基金资助项目(61472049)
吉林省教育厅"十二五"科学技术研究项目(2014132)
本文URL http://www.arocmag.com/article/02-2019-09-003.html
收稿日期
修回日期
页码 -
中图分类号 TP301.6
文献标志码