《计算机应用研究》|Application Research of Computers

基于存储改进的分区并行关联规则挖掘算法

Partitioned parallel association rules mining algorithm based on storage improvement

免费全文下载 (已被下载 次)  
获取PDF全文
作者 王永贵,谢南,曲海成
机构 辽宁工程技术大学 软件学院
统计 摘要被查看 次,已被下载
摘要 基于关联规则在大数据挖掘领域正引起广泛关注,算法的重点及难点就是挖掘频繁集。针对现有算法存储结构简单、生成大量冗余的候选集、时间和空间复杂度高,挖掘效率不理想的情况。为了进一步提高关联规则算法挖掘频繁集的速度,优化算法的执行性能,提出基于内存结构改进的关联规则挖掘算法。算法基于Spark分布式框架,分区并行挖掘出频繁集,提出在挖掘过程中利用布隆过滤器进行项目存储,并对事务集和候选集进行精简化操作,进而达到优化挖掘频繁集的速度、节省计算资源的目的。算法在占用较少内存的条件下,相比于YAFIM和MRApriori算法,在挖掘频繁集效率上有明显地提升。算法不但能较好提升挖掘速度,降低了内存的压力,而且具有很好的可扩展性,使得算法可以应用到更大规模的数据集和集群,从而达到优化算法性能的目的。
关键词 关联规则;大数据;候选集;布隆过滤器;Spark
基金项目 国家自然科学基金资助项目(61404069)
国家自然科学基金青年基金资助项目(41701479)
本文URL http://www.arocmag.com/article/02-2019-12-028.html
收稿日期
修回日期
页码 -
中图分类号 TP301.6
文献标志码