中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于纠删码的数据中心数据可靠性方法研究

文献类型:学位论文

作者冯清青
答辩日期2014-05-30
文献子类博士
授予单位中国科学院大学
授予地点北京
导师孟丹
关键词数据中心 存储可靠性 暂态数据 持久化数据 消息编码 分布式存储 存储资源利用率 纠删码
学位专业其它专业
英文摘要随着信息技术以及互联网业务的不断发展,当今社会已进入“大数据”时代。全球数据总量达到ZB级别,数据增长速率远超过摩尔定律。“大数据”时代数据规模大、数据增长速度快、数据类型多样化,给现代数据中心数据可靠性研究带来了新的挑战。 引发数据中心数据可靠性问题的原因是多方面的,发生数据不可用事件时数据所处的时间阶段和状态也不尽相同。现代数据中心处理大规模计算任务过程中,消息传输错误会引发级联错误问题,导致最终结果不可靠,甚至造成数据中心服务中断。传统方法采用请求、应答重传或消息持久化机制保障消息传输可靠性,会严重影响传输性能。针对存储数据丢失或错误导致的数据中心服务不可用问题,现有研究主要采用数据副本策略和纠删码容错技术保障数据存储可靠性。大数据时代数据规模大,增长速度快,导致数据副本策略面临存储开销过大问题;数据类型多样化造成现有编码容错技术难以满足不同数据类型的多样化存储需求,以及数据在不同时间阶段变化的存储需求。 本论文研究工作从数据生命周期的角度,系统地对数据中心数据可靠性问题展开研究:将数据中心数据分为处于计算或传输过程中的“暂态数据”和归档存储的“持久化数据”两类,并根据这两类数据面临的以上不同可靠性问题分别展开研究。 论文研究工作的主要创新性成果和贡献如下: 1. 针对数据中心暂态数据在传输过程中易丢失或错误的问题,提出了一种基于纠删码的暂态数据可靠传输方法。在有限域生成n个k维向量构造编码生成矩阵,将数据编码后分为n个分片并发传输,接收方收到任意k个分片就能还原数据。实验表明,在保障数据传输可靠性同时,该方法不会显著影响传输性能。 2. 针对持久化数据可靠性研究中,数据副本策略空间开销过大,现有编码存储方法难以满足不同数据的多样化存储需求的问题,提出了一种基于数据特性的分级编码可靠存储策略。根据文件大小、主观重要程度,通过加权计算为不同数据采用分级编码存储。实验分析表明,在多样化存储需求的国家电网云存储系统中,该方法在实现存储可靠性前提下,存储空间利用率比多副本策略至少提升42.9%,比Google colossus用单一RS(6,3)编码存储提升空间利用率7.1%。 3. 针对动态副本策略存储开销过大,静态编码无法适应存储需求变化的问题,提出了一种动态可调节编码存储方法,适应数据在生命周期不同阶段变化的存储需求。改进HDFS-RAID元数据管理器,通过配置文件自动化调节不同文件的编码和存储冗余策略。实验分析表明,在历史数据可靠性需求随时间递减的国家电网云存储系统场景下,存储10年所生成的电网数据,该方法比用Microsoft WAS LRC(12,2,2)编码提升存储空间利用率13.2%。在不降低数据可靠性前提下,比可变副本策略至少提升空间利用率42.2%。
学科主题计算机系统结构
语种中文
公开日期2014-06-24
源URL[http://ictir.ict.ac.cn/handle/311040/1871]  
专题中国科学院计算技术研究所学位论文_2014博士
推荐引用方式
GB/T 7714
冯清青. 基于纠删码的数据中心数据可靠性方法研究[D]. 北京. 中国科学院大学. 2014.

入库方式: OAI收割

来源:计算技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。