《计算机应用研究》|Application Research of Computers

基于偏序集的数据清洗规则链自动生成方法

Automatic generation of data cleaning rule Chain based on poset

免费全文下载 (已被下载 次)  
获取PDF全文
作者 何俊,张彩庆,李小珍,张德海
机构 昆明学院 信息工程学院;云南大学 外国语学院;云南大学 软件学院
统计 摘要被查看 次,已被下载
摘要 规则链自动生成是实现数据自动清洗的关键。针对数据清洗中规则间逻辑冲突频发和出错率高的问题,提出一种基于偏序集的规则链自动生成方法。通过分层组合的数据清洗框架自顶向下对规则进行分类处理,采用偏序集和哈斯图自动生成每个层级的逻辑正确和一致的规则链,并设计出对应的生成算法和自动清洗算法。以扶贫领域数据为例进行实验,结果表明本文提出的方法使数据清洗效率有一定提升,清洗结果出错率明显降低,检验了方法的科学性和有效性。
关键词 偏序集;数据清洗;规则链;哈斯图;扶贫领域
基金项目 国家自然科学基金资助项目(61263043,61864004)
云南省地方本科高校基础研究联合专项基金资助项目(2017FH001-05)
本文URL http://www.arocmag.com/article/02-2021-01-037.html
收稿日期
修回日期
页码 -
中图分类号 TP391
文献标志码