中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
一种新型高效的算法级容错技术及实现

文献类型:期刊论文

作者王睿; 谭光明; 陈明宇; 姚二林
刊名信息技术快报
出版日期2011-11-26
卷号9期号:6页码:43
关键词高性能计算 检查点 算法容错 Exaflops
英文摘要随着高性能计算系统规模的不断扩大,节点失效愈加频发。传统的容错技术大都基于检查点(checkpoint)方式。但是,检查点技术的开销随着系统规模的扩大而不断增加,在百亿亿次(Exaflops)规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而,该技术依然基于停等模式。对于大规模系统,停等模式在很大程度上会影响程序的并行效率。本文提出了一种非停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效,不用停等恢复失效节点上的数据,而用冗余节点替换失效节点,使计算能继续进行。最终的正确结果可以通过一个线性变换求出。为了论证方案的有效性,我们结合MPICH的容错特性实现了容错的High Performance Linpack (HPL),并评估了方案的性能。实验结果表明,即使在小规模下,我们的方案的性能也明显优于算法失效恢复技术。
语种中文
公开日期2011-12-31
源URL[http://ictir.ict.ac.cn/handle/311040/1262]  
专题信息技术快报_2011
推荐引用方式
GB/T 7714
王睿,谭光明,陈明宇,等. 一种新型高效的算法级容错技术及实现[J]. 信息技术快报,2011,9(6):43.
APA 王睿,谭光明,陈明宇,&姚二林.(2011).一种新型高效的算法级容错技术及实现.信息技术快报,9(6),43.
MLA 王睿,et al."一种新型高效的算法级容错技术及实现".信息技术快报 9.6(2011):43.

入库方式: OAI收割

来源:计算技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。