《计算机应用研究》|Application Research of Computers

基于并行处理机制的数据复用策略研究

Data reuse strategy research based on parallel processing mechanism

免费全文下载 (已被下载 次)  
获取PDF全文
作者 魏玲,郭新朋
机构 哈尔滨理工大学 管理学院,哈尔滨 150000
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2017)08-2324-05
DOI 10.3969/j.issn.1001-3695.2017.08.020
摘要 针对频繁出现的数据冗余、数据复用效率低下等问题,将列存储方式结合并行处理机制对数据复用策略进行优化。构建了基于MapReduce的数据复用并行化处理模型,利用改进型CSM模式匹配算法结合数据挖掘过程中的数据筛选算法,提出并行化数据复用算法。该算法利用数据属性的模式匹配确定属性列之间的对应关系,使用数据检测方式验证属性列数据复用的可行性,从而进行属性列数据筛选,实现并行化的数据复用策略。在大数据环境下的数据仓库中,对大规模基准数据属性集SSB和TPCH中提取的数据实证进行分析,实验结果分析中存储量和处理时间分别减少了17%和35%,验证了并行化数据复用策略在数据存储量、数据处理时间等方面比普通数据复用策略更具高效性。
关键词 并行处理;数据复用;数据仓库;模式匹配
基金项目 国家自然科学基金资助项目(71272191)
本文URL http://www.arocmag.com/article/01-2017-08-020.html
英文标题 Data reuse strategy research based on parallel processing mechanism
作者英文名 Wei Ling, Guo Xinpeng
机构英文名 SchoolofManagement,HarbinUniversityofScience&Technology,Harbin150000,China
英文摘要 Aiming at frequently appear data redundancy and data reusable inefficiency problems, this paper combined the column-storage mechanism with parallel processing to optimize data reuse strategy. It built a parallel processing model based on MapReduce of data reuse, and used the improved pattern matching algorithm CSM combine the data screening algorithm to propose parallel data reuse algorithm. This algorithm used the pattern matching algorithm to determine the correspondence between the attribute columns, and through data detected method verifies the feasibility of reusing data attribute columns, thereby filtered the data columns and realized the parallel data reuse strategy. Under the big data, it used the data tables of large scale data sets SSB and TPCH in data warehouse to experiment. The results of storage and treatment time are decreased by 17% and 35%, and verified parallel data reuse strategy has more optimized than the general strategy in data storage and data processing time.
英文关键词 parallel processing; data reuse; data warehouse; pattern matching
参考文献 查看稿件参考文献
  [1] Yang Jian. Algorithms for materialized view design in database warehousing environment[C] // Proc of the 23rd International Conference on Very Large Data Bases. 1997:136-145.
[2] Roy P, Ramamritham K, Seshadri S, et al. Don’t trash your intermediate results, cache’em[EB/OL] . (2000). https://arxiv. org/pdf/cs/0003005. pdf.
[3] 冯富辉. 并行处理技术在通信系统中的应用研究[D] . 北京:北京交通大学, 2014.
[4] 巫小婷, 邓家先, 任玉莉, 等. 基于OpenMP的压缩感知多描述并行处理算法[J] . 计算机应用研究, 2013, 30(4):1278-1280.
[5] 王珏, 胡长军, 张纪林, 等. 一种数据并行中的群通信优化策略[J] . 计算机学报, 2008, 31(2):318-328.
[6] Dean J, Ghemawat S. MapReduce:a flexible data processing tool[J] . Communications of ACM, 2010, 53(1):72-77.
[7] 田斌, 何强, 王佳, 等. 采用MapReduce 的VLBI 并行处理方法[J] . 西安交通大学学报, 2015, 49(4):1-6.
[8] Ene A, Im S, Moseley B. Fast clustering using MapReduce[C] //Proc of International Conference on Knowledge Discovery and Data Mining. 2011:681-689.
[9] Cordeiro R L F, Jr Traina C, Traina A J M, et al. Clustering very large multi-dimensional datasets with MapReduce[C] //Proc of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM Press, 2011:690-698.
[10] 张琦, 王梅, 乐嘉锦, 等. 列存储数据仓库查询执行中重用缓冲区调度算法[J] . 计算机研究与发展, 2011, 48(10):1942-1950.
[11] 亓开元, 韩燕波, 赵卓峰, 等. 支持高并发数据流处理的MapReduce中间结果缓存[J] . 计算机研究与发展, 2013, 50(1):111-121.
[12] Van De Velde S, Steendam H. CUPID algorithm for cooperative indoor multipath-aided localization[C] //Proc of International Conference on Indoor Positioning and Indoor Navigation. 2012:1-6.
[13] Do H H, Rahm E. COMA:a system for flexible combination of schema matching approaches[C] //Proc of VLDB Conference. 2002:610-621.
[14] 钱颖. 发掘数据库模式间的复杂语义匹配[J] . 小型微型计算机系统, 2008, 29(5):817-824.
[15] 李亮, 王思东, 朱正东, 等. 应用动态生成树的 GPU显存数据复用优化[J] . 西安交通大学学报, 2013, 47(10):44-47.
[16] 白洪涛, 欧阳丹彤, 李熙铭. 基于GPU的稀疏矩阵向量乘优化[J] . 计算机科学, 2010, 37(8):167-171, 181.
收稿日期 2016/5/26
修回日期 2016/6/29
页码 2324-2328
中图分类号 TP391
文献标志码 A