博士论文-高能物理数据MapReduce并行处理平台研究
文献类型:学位论文
作者 | 臧冬松 |
学位类别 | 博士 |
答辩日期 | 2013 |
授予单位 | 中国科学院大学 |
授予地点 | 北京 |
导师 | 孙功星 |
关键词 | 大数据 高能物理 MapReduce 集群 分布式计算 |
学位专业 | 计算机应用技术 |
中文摘要 | 在过去近20年的时间里,集群和网格系统被广泛应用于高能物理数据处理。传统的以数据与计算分离的集群结构需要将大量的数据通过网络传输到计算节点进行处理分析,导致I/O成为系统瓶颈,而计算节点自身的存储和I/O资源得不到充分利用;以MapReduce模型为基础的新型并行计算技术,具有高并发性、高可扩展性和高容错性等优秀特性,使大数据处理技术产生了革命性的改变。然而由于高能物理数据格式和处理特点与互联网应用的特性并不完全吻合,因此这种新型的技术一直没有被完全应用于高能物理中。本论文解决了阻碍Hadoop框架在高能物理中应用的两个主要问题,建立了一个全新的高能物理数据分析平台,并基于该平台建立了事例预筛选和事例分析MapReduce模型,不仅极大地提高了物理分析的效率,而且可以节约系统的建设经费。 论文在分析了Hadoop框架及高能物理数据处理特性的基础上,归纳并解决了阻碍Hadoop框架在高能物理中应用的两方面主要问题: 1) 针对高能物理数据的特点,将文件以单个数据块的形式存储在Hadoop分布式文件系统(HDFS)中,开发了在高能物理中普遍采用的C++软件框架ROOT对HDFS的访问接口,并对本地数据的访问进行了优化,修改了HDFS源代码,使之支持文件的随机写入; 2) 将任务的执行过程从MapReduce的作业调度框架中分离出来,在C++端进行了实现,开发了相应的数据读写和中间结果处理函数库,保证了原有C++程序在MapReduce框架下的高效运行,针对高能物理数据分析的特点对Reduce过程进行了优化,简化了中间数据的混洗和排序过程。 基于新的数据处理平台,论文对高能物理数据分析的流程进行了优化,利用分布式列存储数据库HBase建立了事例级的元数据(TAGs)数据库,并基于TAG信息对事例进行预筛选,使得用户需要进一步分析的事例数减少了2-3个数量级,针对文件的选择性访问模式对文件的结构进行了重构,进一步提高了数据访问效率。 作为一个完整的系统,论文还给出了系统的用户接口、用户认证和权限管理、集群配置管理和集群监控系统等模块,方便用户的使用和系统的维护;并开发了基于数据流处理技术的文件访问实时统计框架,为数据的动态副本策略提供依据。系统使用BESIII实验数据对原型进行了测试,结果表明,集群的并行处理能力与集群的规模基本成线性关系,集群具有良好的扩展性,事例预筛选和文件格式重构使得事例分析的速度提高了约40倍。 |
学科主题 | 计算机应用技术 |
语种 | 中文 |
公开日期 | 2016-02-25 |
源URL | [http://ir.ihep.ac.cn/handle/311005/209997] ![]() |
专题 | 计算中心_学位论文和出站报告 |
作者单位 | 中国科学院高能物理研究所 |
推荐引用方式 GB/T 7714 | 臧冬松. 博士论文-高能物理数据MapReduce并行处理平台研究[D]. 北京. 中国科学院大学. 2013. |
入库方式: OAI收割
来源:高能物理研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。