一种新型高效的算法级容错技术及实现
文献类型:期刊论文
作者 | 王睿; 谭光明; 陈明宇; 姚二林 |
刊名 | 信息技术快报
![]() |
出版日期 | 2011-11-26 |
卷号 | 9期号:6页码:43 |
关键词 | 高性能计算 检查点 算法容错 Exaflops |
英文摘要 | 随着高性能计算系统规模的不断扩大,节点失效愈加频发。传统的容错技术大都基于检查点(checkpoint)方式。但是,检查点技术的开销随着系统规模的扩大而不断增加,在百亿亿次(Exaflops)规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而,该技术依然基于停等模式。对于大规模系统,停等模式在很大程度上会影响程序的并行效率。本文提出了一种非停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效,不用停等恢复失效节点上的数据,而用冗余节点替换失效节点,使计算能继续进行。最终的正确结果可以通过一个线性变换求出。为了论证方案的有效性,我们结合MPICH的容错特性实现了容错的High Performance Linpack (HPL),并评估了方案的性能。实验结果表明,即使在小规模下,我们的方案的性能也明显优于算法失效恢复技术。 |
语种 | 中文 |
公开日期 | 2011-12-31 |
源URL | [http://ictir.ict.ac.cn/handle/311040/1262] ![]() |
专题 | 信息技术快报_2011 |
推荐引用方式 GB/T 7714 | 王睿,谭光明,陈明宇,等. 一种新型高效的算法级容错技术及实现[J]. 信息技术快报,2011,9(6):43. |
APA | 王睿,谭光明,陈明宇,&姚二林.(2011).一种新型高效的算法级容错技术及实现.信息技术快报,9(6),43. |
MLA | 王睿,et al."一种新型高效的算法级容错技术及实现".信息技术快报 9.6(2011):43. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。