《计算机应用研究》|Application Research of Computers

基于VSM的文本相似度计算的研究

Similarity computing of documents based on VSM

免费全文下载 (已被下载 次)  
获取PDF全文
作者 郭庆琳,李艳梅,唐琦
机构 1.华北电力大学 计算机科学与技术学院,北京 102206;2.北京大学 计算机系,北京 100871
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2008)11-3256-03
DOI 10.3969/j.issn.1001-3695.2008.11.015
摘要 文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TDIDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TDIDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。
关键词 文本相似度;特征选择;词频—逆文档频率法;向量空间模型
基金项目 国家自然科学基金资助项目(90412010, 70572090);NSCF(60573166);华北电力大学博士学位教师科研基金资助项目(H0585)
本文URL http://www.arocmag.com/article/1001-3695(2008)11-3256-03.html
英文标题 Similarity computing of documents based on VSM
作者英文名 GUO Qing-lin, LI Yan-mei, TANG Qi
机构英文名 1. School of Computer Science & Technology, North China Electric Power University, Beijing 102206, China; 2. Dept. of Computer Science & Technology, Peking University, Beijing 100871, China
英文摘要 The precision and efficiency of the computing of documents similarity is the foundation and key of other documents process. This paper improved the DF and TFIDF arithmetic. In this way, DF’s time complexity was linearity that suited the mass documents process, and could make up the fault that exceptional useful characters might be deleted. Also, it did a mend on the TFIDF arithmetic to improve the precision of documents similarity.
英文关键词 documents similarity; feature selection; TFIDF(term frequencyinverse document frequency); VSM(vector space model)
参考文献 查看稿件参考文献
 
收稿日期
修回日期
页码 3256-3258
中图分类号
文献标志码 A