《计算机应用研究》|Application Research of Computers

Spark框架结合分布式KNN分类器的网络大数据分类处理方法

Network big data classification processing method based on Spark and distributed KNN classifier

免费全文下载 (已被下载 次)  
获取PDF全文
作者 曹瑜,王楠,徐志超
机构 哈尔滨金融学院 计算机系;吉林财经大学 管信学院;3吉林大学 计算机学院
统计 摘要被查看 次,已被下载
摘要 针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框架的并行机制将训练集划分成若干分区;然后在Map阶段找到待预测样本每个分区的K近邻,进一步在reduce阶段根据map阶段的结果确定最终的K近邻;最后并行地对近邻的标签集合进行聚合,通过最大化后验概率输出待预测样本的目标标签集合。在PokerHand等四个大数据分类数据集上进行实验,提出方法取得了较低的汉明损失,证明了其有效性。
关键词 分类处理;Apache Spark;并行机制;数据挖掘;汉明损失;K最近邻
基金项目 国家自然科学基金资助项目(61702213)
吉林省教育厅"十三五"科学技术研究(JJKH20180463KJ)
本文URL http://www.arocmag.com/article/02-2019-11-021.html
收稿日期
修回日期
页码 -
中图分类号 TP391
文献标志码