《计算机应用研究》|Application Research of Computers

大数据下的分布式精确模糊KNN分类算法

Accurate distributed fuzzy KNN classification algorithm for big data

免费全文下载 (已被下载 次)  
获取PDF全文
作者 邹劲松,李芳
机构 重庆水利电力职业技术学院 电子信息工程系;重庆大学 计算机学院
统计 摘要被查看 次,已被下载
摘要 针对K-近邻(KNN)方法处理大数据集的效率问题进行了研究,提出了一种基于Spark框架的分布式精确模糊KNN分类算法。该方法创新性地将Spark框架分布式map和reduce过程与模糊KNN结合,首先对不同分区中训练样本类别信息进行模糊化处理,得到类别隶属度,将训练集转换为添加类隶属度的模糊训练集;然后使用KNN算法对先前计算的类成员测试集计算得到k个最近邻;最后通过距离权重进行分类。针对百万级大数据集样本的实验,以及与其他算法的对比实验表明,所提算法是可行的和有效的。
关键词 大数据;分布式Spark框架;类隶属度;精确模糊KNN算法
基金项目 重庆市教育科学“十三五”规划2017年度重点无经费课题(2017-GX-181)
本文URL http://www.arocmag.com/article/02-2019-12-005.html
收稿日期
修回日期
页码 -
中图分类号 TP301.6
文献标志码