《计算机应用研究》|Application Research of Computers

一种基于质量估算的空间数据流聚类算法研究

Clustering algorithm on spatial data stream based on mass estimation

免费全文下载 (已被下载 次)  
获取PDF全文
作者 樊超,李宏伟,朱燕,施方林
机构 信息工程大学,郑州 450001
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2017)09-2700-03
DOI 10.3969/j.issn.1001-3695.2017.09.030
摘要 针对传统的基于网格密度的数据流聚类方法丢失数据的空间位置特性的缺陷,提出了一种基于质量估算(mass estimation)的空间数据流聚类方法。通过h:d树进行空间划分,可将到达数据映射到不同的划分区域,在树得到质量(mass)的基础上,进行各子区域的密度推算的同时引入衰减因子,以及在线动态维护微簇,可精确反映空间数据流的演化信息。该方法在真实数据与模拟数据的综合实验中验证了算法的聚类效果与高效率性,并通过与传统数据流聚类算法的对比,进一步体现出其在聚类效果上的优势。该方法能够在保证较低的时间复杂度的基础上,更好地保留数据的空间位置特性,因而能够更好地适应空间数据流聚类的需求。
关键词 空间数据挖掘;空间数据流;数据流聚类;质量估算;空间划分
基金项目 国家自然科学基金资助项目(41571394)
本文URL http://www.arocmag.com/article/01-2017-09-030.html
英文标题 Clustering algorithm on spatial data stream based on mass estimation
作者英文名 Fan Chao, Li Hongwei, Zhu Yan, Shi Fanglin
机构英文名 InformationEngineeringUniversity,Zhengzhou450001,China
英文摘要 To solve the problem which traditional data stream clustering algorithm lost the spatial location features, this paper proposed a spatial data stream clustering method based on mass estimation. Through the spatial partitioning with trees, the arriving data could be mapped to different division areas. By calculating the density of each subdomain on the basis of the tree’s mass and introducing the attenuation factor to online dynamic maintenance of the cluster at the same time, the evolution of the spatial data stream information could be accurately reflected. This method guarantees the low complexity in less time, the data space features which meet the requirements of space data stream clustering algorithm can be saved better.
英文关键词 spatial data mining; spatial data stream; data stream clustering; mass estimation; spatial partitioning
参考文献 查看稿件参考文献
  [1] 于彦伟, 王沁, 邝俊, 等. 一种基于密度的空间数据流在线聚类算法[J] . 自动化学报, 2012, 38(6):1051-1059.
[2] 闫昭博, 赵静, 朱丽萍. 一种基于网格和距离阈值的空间数据流聚类算法[J] . 山西大学学报:自然科学版, 2008, 31(4):521-525.
[3] Aggarwal C C, Han Jiawei, Wang Jianyong, et al. A framework for clustering evolving data streams[C] //Proc of the 29th International Conference on Very Large Data Bases. 2003:81-92.
[4] Chen Yixin, Tu Li. Density-based clustering for real-time stream data[C] //Proc of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM Press, 2007:133-142.
[5] Tu Li, Chen Yixin. Stream data clustering based on grid density and attraction[J] . ACM Trans on Knowledge Discovery from Data, 2009, 3(3):167-176.
[6] 王宪鹏. 基于网格的MST数据流聚类算法研究[D] . 哈尔滨:哈尔滨工程大学, 2009.
[7] Ting Kaiming, Wells J R. Multi-dimensional mass estimation and mass-based clustering[C] //Proc of the 10th International Conference on Data Mining. 2010:511-520.
[8] 米源, 杨燕, 李天瑞. 基于密度网格的数据流聚类算法[J] . 计算机科学, 2011, 38(12):178-181.
[9] Sabau A S. Clustering data streams using mass estimation[C] //Proc of the 15th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing. 2013:289-295.
收稿日期 2016/6/13
修回日期 2016/8/1
页码 2700-2702,2713
中图分类号 TP391
文献标志码 A