《计算机应用研究》|Application Research of Computers

面向结构化数据集的敏感属性识别与分级算法

Sensitive attribute recognition and classification algorithm for structure dataset

免费全文下载 (已被下载 次)  
获取PDF全文
作者 何文竹,彭长根,王毛妮,丁兴,樊玫玫,丁红发
机构 贵州大学 计算机科学与技术学院;贵州大学 公共大数据国家重点实验室;贵州大学 数学与统计学院;贵州财经大学
统计 摘要被查看 次,已被下载
摘要 如何对生产环境中经代码混淆的结构化数据集的敏感属性(字段)进行自动化识别、分类分级,已成为对结构化数据隐私保护的瓶颈。提出一种面向结构化数据集的敏感属性自动化识别与分级算法,利用信息熵定义了属性敏感度,通过对敏感度聚类和属性间关联规则挖掘,将任意结构化数据集的敏感属性进行识别和敏感度量化;通过对敏感属性簇中属性间的互信息相关性和关联规则分析,对敏感属性进行分组并量化其平均敏感度,实现敏感属性的分类分级。实验表明,该算法可识别、分类分级任意结构化数据集的敏感属性,效率和精确率更高;对比分析表明,该算法可同时实现敏感属性的识别与分级,无需预知属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。
关键词 隐私保护;敏感属性识别与分级;最大熵;关联规则;互信息
基金项目 国家自然科学基金资助项目(U1836205,61662009,61772008,11761020)
贵州省科技计划项目(黔科合重大专项字[2018]3001,黔科合重大专项字[2018]3007,黔科合重大专项字[2017]3002,黔科合支撑[2019]2004,黔科合支撑[2018]2162,黔科合基础[2019]1049,黔科合基础[2017]1045)
贵州财经大学科研基金资助项目(2017XJC01)
本文URL http://www.arocmag.com/article/02-2020-10-006.html
收稿日期
修回日期
页码 -
中图分类号 TP309
文献标志码