《计算机应用研究》|Application Research of Computers

基于决策树的敏感词变形体识别算法研究及应用

Research and application of change form of sensitive words recognition algorithm based on decision tree

免费全文下载 (已被下载 次)  
获取PDF全文
作者 余敦辉,张笑笑,付聪,张万山
机构 湖北大学 计算机与信息工程学院;湖北省教育信息化工程技术中心
统计 摘要被查看 次,已被下载
摘要 针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1% 。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。
关键词 敏感词识别;敏感词变形体;决策树;敏感程度计算;多因子模型
基金项目 国家重点研发计划资助项目(2016YFB0800401)
国家自然科学基金资助项目(61572371,61832014)
湖北省技术创新专项(重大项目)(2018ACA13)
本文URL http://www.arocmag.com/article/02-2020-05-004.html
收稿日期
修回日期
页码 -
中图分类号 TP391.1
文献标志码