《计算机应用研究》|Application Research of Computers

基于Spark框架的FP-Growth大数据频繁项集挖掘算法

Frequent item sets mining algorithm for big data based on FP-Growth and Spark framework

免费全文下载 (已被下载 次)  
获取PDF全文
作者 邵梁,何星舟,尚俊娜
机构 浙江建设职业技术学院 教育技术中心;浙江工业大学 学生处;杭州电子科技大学 通信工程学院
统计 摘要被查看 次,已被下载
摘要 针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷。然后,通过FP-Growth算法构建频繁模式树,并生成频繁1-项集。接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸。最后,通过迭代过程来生成频繁k-项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。
关键词 大数据;频繁项集挖掘;Spark框架;FP-Growth算法;垂直布局
基金项目 国家自然科学基金资助项目(166223123)
浙江省自然科学基金资助项目(jg20160405)
本文URL http://www.arocmag.com/article/02-2018-10-006.html
收稿日期
修回日期
页码 -
中图分类号 TP311
文献标志码