《计算机应用研究》|Application Research of Computers

一种面向PDF文本内容审查的高效多模式匹配算法

Efficient multi-pattern matching algorithm for PDF content search

免费全文下载 (已被下载 次)  
获取PDF全文
作者 刘邦国,陈庆春,类先富
机构 西南交通大学 信息科学与技术学院
统计 摘要被查看 次,已被下载
摘要 多模式匹配算法是网络入侵检测和内容过滤的核心算法。针对Wu-Manber多模式匹配算法所存在的匹配效率低、跳转距离较小的问题,结合PDF文本内容的编码规则,提出了一种适用于中文PDF文本内容审查的Wu-Manber改进算法。该算法使用布隆过滤器提取模式串关键信息,同时结合双重哈希和PDF文本编码规则,减少了无谓的匹配次数,加大了跳转幅度,从而提升了PDF文本的匹配性能。实验结果表明,这种改进算法在PDF文本审查中的匹配速率有较大提升,尤其当最短模式串较长且模式串规模较大时速度可以提升一倍以上。
关键词 多模式匹配;Wu-Manber算法;PDF文本编码;布隆过滤器
基金项目 国家自然科学基金资助项目(61771406)
本文URL http://www.arocmag.com/article/02-2020-06-012.html
收稿日期
修回日期
页码 -
中图分类号 TP301.6
文献标志码