《计算机应用研究》|Application Research of Computers

Spark环境下K-means初始中心点优化研究综述

Survey of optimization on K-means algorithm in Spark

免费全文下载 (已被下载 次)  
获取PDF全文
作者 行艳妮,钱育蓉,南方哲,赵京霞
机构 新疆大学 软件学院,乌鲁木齐 830046
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2020)03-001-0641-07
DOI 10.19734/j.issn.1001-3695.2018.10.0609
摘要 为了能够及时了解Spark环境下经典聚类算法K-means的最新研究进展,把握K-means算法当前的研究热点和方向,针对K-means算法的初始中心点优化研究进行综述。首先介绍了内存计算框架Spark和K-means算法,并分析了K-means算法聚类不稳定性的成因和影响,其目的在于指出优化K-means算法的重要性;详细介绍了目前在Spark环境下优化K-means初始中心点的主要方法和最新研究现状,并展望了K-means初始中心点优化问题的未来研究方向。
关键词 K-均值算法; 分布式内存计算框架; 算法优化; 聚类算法
基金项目 国家自然科学基金资助项目(61562086,61462079,61966035)
新疆维吾尔自治区教育厅创新团队资助项目(XJEDU2016S035)
自治区研究生创新项目(XJ2019G072,XJ2019G069,XJ2019G071)
本文URL http://www.arocmag.com/article/01-2020-03-001.html
英文标题 Survey of optimization on K-means algorithm in Spark
作者英文名 Xing Yanni, Qian Yurong, Nan Fangzhe, Zhao Jingxia
机构英文名 College of Software,Xinjiang University,Urumqi 830046,China
英文摘要 In order to understand the latest research progress of the classical clustering algorithm K-means in Spark environment, and grasp the current research hotspots and directions of K-means algorithm, this paper reviewed the initial center point optimization research on K-means algorithm. Firstly, it introduced the memory computing framework Spark and K-means algorithms, and analyzed the cause and effects of clustering instability of K-means algorithm, which pointed out the importance of optimizing K-means algorithm. This paper introduced the main methods and the latest research status of optimizing the initial center point of K-means in Spark environment in detail, and also discussed the future research trends in initial center point optimization of K-means.
英文关键词 K-means; distributed memory computing framework; algorithm optimization; clustering algorithm
参考文献 查看稿件参考文献
 
收稿日期 2018/10/31
修回日期 2018/12/3
页码 641-647
中图分类号 TP391
文献标志码 A