《计算机应用研究》|Application Research of Computers

Spark中一种高效RDD自主缓存替换策略研究

Research on efficient rdd self-cache replacement strategy in Spark

免费全文下载 (已被下载 次)  
获取PDF全文
作者 魏赟,丁宇琛
机构 上海理工大学 光电信息与计算机工程学院 上海 200093
统计 摘要被查看 次,已被下载
摘要 基于并行计算框架Spark缓存替换算法的粗糙性,LRU(Least Recently Used)算法未考虑RDD的重复使用导致易把高重用数据块替换出内存、作业执行效率较低等问题。通过优化权重模型和改进替换策略,提出了一种高效RDD自主缓存替换策略(Efficient RDD Automatic Cache,ERAC),包括高重用自主缓存算法和缓存替换分级算法,可实现高效RDD的自主缓存和缓存目标的分级替换。最后利用SNAP(Stanford Network Analysis Project)提供的标准数据集将所提算法和LRU、RA(Register Allocation)等算法进行了对比实验,得出所提算法能够有效提高Spark的内存利用率和任务执行效率。
关键词 Spark;弹性分布式数据集;缓存替换;内存资源利用
基金项目 国家自然科学基金资助项目(61170277,61472256)
上海市科委科研计划项目(16111107502)
本文URL http://www.arocmag.com/article/02-2020-10-032.html
收稿日期
修回日期
页码 -
中图分类号 TP391
文献标志码