HDFS元数据管理与数据组织优化研究[新]
文献类型:学位论文
作者 | 王有为 |
答辩日期 | 2015-05-29 |
文献子类 | 博士 |
授予单位 | 中国科学院研究生院 |
授予地点 | 北京 |
导师 | 孟丹 |
关键词 | 分布式文件系统 海量数据存储和处理 大文件传输优化 数据动态迁移 数据分布优化 |
学位专业 | 其它专业 |
其他题名 | Research on Optimization for Metadata Management and Data Organization of HDFS[NEW] |
英文摘要 | 云计算和Web2.0应用对分布式存储系统提出了如下性能要求:极高的聚合读写带宽,庞大的名字空间管理能力以及均衡的数据读写负载。然而现有分布式文件系统存在诸多设计和实现上的缺陷,例如扩展性差,读写性能不理想、元数据管理的性能瓶颈和数据可靠性较低等无法回避的问题,严重制约了实际应用与部署。在这种背景下,本文针对海量数据存储和管理中的元数据组织,I/O性能优化和海量数据管理等问题展开研究。本文的主要工作及创新点如下: (1) 提出了一种基于多元数据服务器组织文件系统名字空间的方法。海量离线数据分析任务中需要处理大量文件,高效管理这些文件极为重要。我们提出并实现了两项关键技术:通过一种快速的元数据分布与映射策略确保了元数据均衡分布,以及一种改进的两阶段提交协议确保在执行跨节点操作时,系统状态能维持一致。 (2) 提出了一种海量数据管理以及文件系统动态优化的方法。现有数据副本可靠性技术主要通过心跳汇报实现,当数据块到达一定规模时,集中式块汇报机制将面临性能瓶颈问题。我们将原先的单点块汇报处理机制进行分区,实现了分布式数据块状态汇报机制,消除了原系统的性能瓶颈,获得了良好的扩展性。 (3) 提出了一种面向分布式文件系统的数据布局优化方法。对于分布式文件系统而言,数据存储布局在长期运行后可能由于热点漂移发生劣化现象,轻者影响数据读写性能,重者影响系统稳定工作并可能诱发设备故障。我们提出的方法结合了静态分配和动态迁移策略,在任务分配时和系统运行时自动均衡节点负载。实验结果证明了该方法有效实现了集群负载均衡化,消除了数据集中访问导致的 I/O热点问题,一定程度上优化了上层应用性能。 (4) 提出了一种综合多种技术优化的数据加载方法。使用Map/Reduce处理海量数据的首要步骤是将数据从本地文件系统上传至HDFS。当数据规模极为庞大时,将导致严重的时间耗费以及空间浪费。我们通过文件系统间的元数据映射机制加速了数据上传过程,同时优化了主机间数据交互以及校验和生成过程。 (5) 综合上述技术实现了一种新型分布式文件系统Prism。该系统实现了可扩展的元数据管理,高吞吐率I/O操作以及动态均衡集群负载的能力。我们通过实验验证了该系统在生产应用中的实际性能,进一步检验了上述技术的有效性。 |
学科主题 | 计算机系统设计 |
语种 | 中文 |
公开日期 | 2015-06-24 |
资助机构 | 王有为 |
分类号 | TP316.4 TP333 |
源URL | [http://ictir.ict.ac.cn/handle/311040/2088] ![]() |
专题 | 中国科学院计算技术研究所学位论文_2015博士 |
推荐引用方式 GB/T 7714 | 王有为. HDFS元数据管理与数据组织优化研究[新][D]. 北京. 中国科学院研究生院. 2015. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。