《计算机应用研究》|Application Research of Computers

一种面向大数据的快速自动聚类算法

Fast automatic clustering algorithm for big data

免费全文下载 (已被下载 次)  
获取PDF全文
作者 陈小玉,李晓静,马海英
机构 1.南阳理工学院 计算机与信息工程学院,河南 南阳 473000;2.济源职业技术学院,河南 济源 459000;3.南通大学 计算机科学与技术学院,江苏 南通 226019
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2017)09-2651-04
DOI 10.3969/j.issn.1001-3695.2017.09.019
摘要 针对大数据环境下高维数据聚类速度慢、准确率低的问题,提出了一种面向大数据的快速自动聚类算法(FACABD)。FACABD聚类算法利用谱聚类算法对大数据集进行归一化和列降维,提出了一种新的快速区域进化的粒子群算法(FRE-PSO),并利用该算法进行行降维;然后在行列降维的基础上,引入聚类模糊隶属度基数,自动发现簇的数目,根据类簇数目,采用FRE-PSO算法结合模糊聚类算法,实现了快速自动聚类。在多个不同数据集上的实验结果表明,该算法能够在数据驱动下快速自动聚类,与其他聚类算法相比,有效地提高了运行速度和精度。
关键词 谱聚类;粒子群优化;区域进化;自动聚类
基金项目 国家自然科学基金资助项目(61402244)
本文URL http://www.arocmag.com/article/01-2017-09-019.html
英文标题 Fast automatic clustering algorithm for big data
作者英文名 Chen Xiaoyu, Li Xiaojing, Ma Haiying
机构英文名 1.CollegeofComputer&InformationEngineering,NanyangInstituteofTechnology,NanyangHenan473000,China;2.JiyuanVocational&TechnicalCollege,JiyuanHenan459000,China;3.CollegeofComputerScience&Technology,NantongUniversity,NantongJiangsu226019,China
英文摘要 Aiming at the problem of slow speed and low accuracy of high dimensional data clustering in big data environment, this paper proposed a fast automatic clustering algorithm for big data (FACABD). Firstly, it realized the normalization and row dimension reduction for the large data set by means of spectral clustering algorithm. Second, it proposed a particle swarm optimization algorithm for fast regional evolution (FRE-PSO), which could improve the convergence speed and realized the line dimension reduction. And then it introduced the fuzzy cluster membership degree base to automatically discovery the cluster number. Finally, it realized fast automatic clustering by the FRE-PSO and fuzzy clustering algorithm. The experiments on multiple, different data sets show that the algorithm can contain the clustering results quickly and automatically by mining data itself, and it can effectively improve the speed and accuracy than the other clustering algorithms.
英文关键词 spectral clustering; particle swarm optimization; regional evolution; automatic clustering
参考文献 查看稿件参考文献
  [1] 王纵虎, 刘志镜, 陈东辉. 基于粒子群优化的模糊C-均值聚类算法研究[J] . 计算机科学, 2012, 39(9):166-169.
[2] Iam-On N, Boongoen T, Garrett S. A link-based cluster ensemble approach for categorical data clustering[J] . IEEE Knowledge and Data Engineering, 2012, 24(3):413-425.
[3] Bordogna G, Pasi G. A quality driven hierarchical data divisive soft clustering for information retrieval[J] . Knowledge-Based Systems, 2012, 26(1):9-19.
[4] 吴涛, 陈黎飞, 郭躬德. 优化子空间的高维聚类算法[J] . 计算机应用, 2014, 34(8):2279-2284.
[5] 孙浩军, 闪光辉. 一种高维混合属性数据聚类算法[J] . 计算机工程与应用, 2015, 51(8):128-133.
[6] 王桂兰, 周国亮. Spark环境下的并行模糊C-均值聚类算法[J] . 计算机应用, 2016, 36(2):342-347.
[7] 李斌, 王劲松, 黄玮. 一种大数据环境下的新聚类算法[J] . 计算机科学, 2015, 42(12):247-250.
[8] 陈寿文. 基于质心和自适应指数惯性权重改进的粒子群算法[J] . 计算机应用, 2015, 35(3):675-679.
[9] 孙锋利, 何明一, 高全华. 引入欧椋鸟群飞行机制的改进粒子群算法[J] . 计算机应用研究, 2012, 29(5):1666-1669, 1697.
[10] 周丽华, 黄成泉, 王林. 一种自动模糊聚类的算法[J] . 统计与决策, 2014(20):16-19.
收稿日期 2016/6/30
修回日期 2016/8/18
页码 2651-2654,2658
中图分类号 TP391;TP301.6
文献标志码 A