《计算机应用研究》|Application Research of Computers

基于Spark并行的密度峰值聚类算法

Spark-based parallel density clustering algorithm

免费全文下载 (已被下载 次)  
获取PDF全文
作者 孙伟鹏,吴锡生,孟斌
机构 江南大学 物联网工程学院;中船重工集团第七〇二研究所 软件工程中心
统计 摘要被查看 次,已被下载
摘要 针对FSDP聚类算法在计算数据对象的局部密度与最小距离时,由于需要遍历整个数据集而导致算法的整体时间复杂度较高的问题,提出了一种基于Spark的并行FSDP聚类算法SFSDP。首先,算法通过空间网格划分将待聚类数据集划分成多个数据量相对均衡的数据分区;然后,利用改进的FSDP聚类算法并行地对各个分区内的数据执行聚类分析;最后,通过将分区间的局部簇集合并,生成全局簇集。实验结果表明,SFSDP与FSDP算法相比能够有效地进行大规模数据集的聚类分析工作,并且算法在准确性和扩展性方面都有很好的表现。
关键词 聚类;密度峰值;空间划分;并行;Spark
基金项目 国家自然科学基金资助项目(61672265)
本文URL http://www.arocmag.com/article/02-2019-12-009.html
收稿日期
修回日期
页码 -
中图分类号 TP301.6
文献标志码