《计算机应用研究》|Application Research of Computers

基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法

Uyghur document similarity calculation and plagiarism detection based on hierarchical matching

免费全文下载 (已被下载 次)  
获取PDF全文
作者 亚森·艾则孜,艾山·吾买尔,阿力木江·艾沙
机构 新疆警察学院 信息安全工程系;新疆大学 信息科学与工程学院;新疆大学 网络中心
统计 摘要被查看 次,已被下载
摘要 针对以维吾尔语书写的文档间的相似性计算及剽窃检测问题,提出了一种基于内容的维吾尔语剽窃检测(U-PD)方法。首先,通过预处理阶段对维吾尔语文本进行分词、删除停止词、提取词干和同义词替换,其中提取词干是基于N-gram 统计模型实现;然后,通过BKDRhash算法计算每个文本块的hash值并构建整个文档的hash指纹信息;最后,根据hash指纹信息,基于RKR-GST匹配算法在文档级、段落级和句子级将文档与文档库进行匹配,获得文档相似度,以此实现剽窃检测。通过在维吾尔语文档中的实验评估表明,提出的方法能够准确检测出剽窃文档,具有可行性和有效性。
关键词 维吾尔语文档;相似度;剽窃检测;文档hash指纹;分级匹配
基金项目 国家自然科学基金资助项目(61762086,61662077,61363064)
国家社会科学基金资助项目(13CFX055)
新疆维吾尔自治区高校科研计划项目(XJEDU2016I052,XJEDU2017M046)
本文URL http://www.arocmag.com/article/02-2019-07-008.html
收稿日期
修回日期
页码 -
中图分类号 TP391.1
文献标志码