高性能并行数值软件性能优化及存储复杂性研究
文献类型:学位论文
作者 | 张云泉 |
学位类别 | 博士 |
答辩日期 | 2000 |
授予单位 | 中国科学院中科院软件研究所 |
授予地点 | 中科院软件研究所 |
关键词 | 并行数值软件包 性能优化 处理器网格 分块算法 应用程序编程接口 存储复杂性 存储层次 并行计算模型 |
学位专业 | 计算机软件与理论 |
中文摘要 | 高性能计算已经进入了万亿次机器的时代。围绕着在万亿次高性能计算环境下的并行数值软件包性能优化问题,本文以面向这类计算环境设计的有代表性的并行数值软件包ScaLAPACK为例,从最适处理器网格形状的自动选择,并行近优数据分块大小的自动选择,用户友好的ScaLAPACK应用程序编程接口,对同一算法的不同实现形式从存储复杂性角度的有效区分,和新的面向数值计算的有存储层次和指令级并行的并行计算模型等五个方面进行了研究,并提出了相应的性能优化技术和分析方法。本文在注意到处理器网格形状对各处理器上的计算量分配即负载平衡无影响的基础上,通过提出新的通信点扩展定义,提出了选择通信点集合度最小的处理器网格为性能最优的处理器网格的思想和具体方法。在日立并行计算机SR2201上对ScaLAPACK软件包中的标准性能测试程序并行LU和LLT的分析,证明了该方法完全可以正确的选择在特定处理器数目,问题规模和分块大小情况下的性能最优的处理器网格形状;在假定本地计算的最优分块大小范围可以通过实验确定的情况下,本文提出了一个把本地计算的最优分块范围大小的选择,负载平衡,通信性能优化和本地存储空间限制等因素统一在一起的近优分块大小选择框架。该框架通过给出不同因素对近优分块范围限制的不等式,在小规模实验对不同因素对近优分块选择影响匹配和分析的基础上,找出在具体平台上最关键的一个或多个因素,并通过拟合这些因素与小规模实验的结果,确定包含这些因素的近优分块选择的理论公式。通过这一框架,我们成功的在SR2201上给出了并行LU和QR算法的近优分块选择的理论公式.实验证明,在处理器数目较大时,我们给出的公式能够很好的选择近优的分块大小,一般的预测分块与实际最优分块的性能差别:对LU分解平均性能差别为2.98%;对QR分解来说,平均性能差别为7.73%.若问题规模较大时,误差更小。在前面的处理器网格形状选择技术和近优分块选择框架研究成果的基础上,结合当前正在成为研究热点的分布式共享系统和HPF语言优点的对比分析,通过对ScaLAPACK子程序调用时可通过自动选择技术确定的参数(最优处理器网格和近优分块大小)的隐藏和对矩阵数据与数据分配信息的封装,我们设计和实现了功能更适合于普通用户且调用界面友好的ScaLAPACK软件包应用程序编程接口SLAPI 1.0。目前,该软件包已完成了基本功能的设计和实现,正在进一步完善之中;怎样能够评价一个算法的具体实现存储行为的优劣,以便于定量的给出该实现形式存储行为的具体特点及可能的改进前景,成为一个急待解决的问题。本文在已有工作的基础上,提出了存储复杂性的具体定义,并给出了存储复杂性的评价尺度-存储复杂度的定义和分析方法。在多个计算平台上的实验与我们的分析结果能够很好的吻合.在前面提出的存储复杂性概念基础上,观察到近几年并行计算模型的设计中,由于对存储层次的忽略而导致模型在分析涉及大量存储访问的程序分析时精确度不高的情况,本文进一步提出了面向高性能数值计算的并行计算模型DRAM(h,k)-有存储层次[h]和指令级并行[k]的分布式RAM模型。在计算平台日立SR2201和PIII 500 Linux PC机群上对在该模型下分析结果的验证,证明该模型能够较好的对同一算法的不同并行实现形式进行相对性能排序. |
语种 | 中文 |
公开日期 | 2011-03-17 |
源URL | [http://ir.iscas.ac.cn/handle/311060/6298] ![]() |
专题 | 软件研究所_中科院软件所_中科院软件所 |
推荐引用方式 GB/T 7714 | 张云泉. 高性能并行数值软件性能优化及存储复杂性研究[D]. 中科院软件研究所. 中国科学院中科院软件研究所. 2000. |
入库方式: OAI收割
来源:软件研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。