《计算机应用研究》|Application Research of Computers

一种改进的基于知网的词语语义相似度算法

Improved word semantic similarity algorithm based on HowNet

免费全文下载 (已被下载 次)  
获取PDF全文
作者 张小川,于旭庭,张宜浩
机构 重庆理工大学 计算机科学与工程学院,重庆 400054
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2018)08-2285-04
DOI 10.3969/j.issn.1001-3695.2018.08.011
摘要 词语语义相似度计算在信息检索、文本聚类、语义消歧等方面有着广泛的应用。针对知网中现有词语语义相似度计算方法未考虑义原距离与义原深度的主次关系进行了研究,通过约束义原深度因素来改进义原相似度算法;另外,提出了以词语间第一基本义原相似度最高的概念组合为计算对象,并引入动态加权因子实现了对词语语义相似度算法的改进。对改进前后的算法分别进行了实验,结果表明改进后的算法提高了词语语义相似度的准确性和客观性。
关键词 词语语义相似度;义原距离;第一基本义原;加权因子
基金项目 国家自然科学基金资助项目(61502064)
重庆市“121”科技支撑示范工程项目(cstc2014fazktjcsf40009)
本文URL http://www.arocmag.com/article/01-2018-08-011.html
英文标题 Improved word semantic similarity algorithm based on HowNet
作者英文名 Zhang Xiaochuan, Yu Xuting, Zhang Yihao
机构英文名 CollegeofComputerScience&Engineering,ChongqingUniversityofTechnology,Chongqing400054,China
英文摘要 The word semantic similarity calculation has a wide range of applications in information retrieval, text clustering and semantic disambiguation, etc. The existing word semantic similarity method based on HowNet doesn’t consider the different importance level of distance and depth. This paper proposed a method of restricting the depth to improve the sememe similarity algorithm. In addition, it proposed a word semantic similarity algorithm, this method filtered the combination terms of the highest first basic sememe similarity value, and absorbed the dynamic weighting factor. And the experiment shows that the modified algorithm improves the computational accuracy and objectivity of the similarity calculation.
英文关键词 word semantic similarity; sememe distance; the first basic sememe; weighting factor
参考文献 查看稿件参考文献
  [1] 葛斌, 李芳芳, 郭丝路, 等. 基于知网的词汇语义相似度计算方法研究[J] . 计算机应用研究, 2010, 27(9):3329-3333.
[2] Lee L. Similarity based approaches to natural language processing[D] . Cambridge:Harvard University, 1997.
[3] Brown P. Word sense disambiguation using tactical methods[C] //Proc of the 29th Meeting of Association for Computational Linguistics. 1991.
[4] Floreano D, Monidada F. Evolutionary neuro-controller for autonomous mobile robots[J] . Neural Networks, 1998, 11(7/8):1461-1478.
[5] 王斌. 汉英双语语料库自动对齐研究[D] . 北京:中国科学院计算技术研究所, 1999.
[6] 刘群, 李素建. 基于知网的词汇语义相似度计算[C] //第三届汉语词汇语义学研讨会论文集. 2002:59-76.
[7] 金玉, 范学峰. 基于知网的中文DeepWeb模式匹配算法研究[J] . 计算机应用研究, 2009, 26(10):3750-3753.
[8] 程传鹏, 吴志刚. 一种基于知网的句子相似度计算方法[J] . 计算机工程与科学, 2012, 34(2):172-175.
[9] 李峰, 李芳. 中文词语语义相似度计算——基于《知网》2000[J] . 中文信息学报, 2007, 21(3):99-105.
[10] Lin Dekang. An information-theoretic definition of similarity semantic distance in WordNet[C] //Proc of the 15th International Conference on Machine Learning. San Francisco:Morgan Kaufmann Publishers Inc. , 1998:296-302.
[11] 王小林, 王义. 改进的基于知网的词语相似度算法[J] . 计算机应用, 2011, 31(11):3075-3077.
[12] 李湘东, 曹环, 丁丛, 等. 利用知网和领域关键词集扩展方法的短文本分类研究[J] . 现代图书情报技术, 2015, 31(2):31-37.
[13] 廖志芳, 周国恩, 李俊锋, 等. 中文短文本语法语义相似度算法[J] . 湖南大学学报:自然科学版, 2016, 43(2):135-140.
[14] 张沪寅, 刘道波, 温春艳. 基于知网的词语语义相似度改进算法研究[J] . 计算机工程, 2015, 41(2):151-156.
[15] 王小林, 王东. 基于知网的词语语义相似度算法[J] . 计算机工程, 2014, 40(12):177-181.
[16] 王义, 王小林. 基于改进的义原关联度算法的词语相关度计算[J] . 情报学报, 2012, 31(12):1271-1275.
[17] 张亮, 尹存燕. 基于语义树的中文词语相似度计算与分析[J] . 中文信息学报, 2010, 24(6):23-30.
收稿日期 2017/3/29
修回日期 2017/5/15
页码 2285-2288
中图分类号 TP391
文献标志码 A