龙芯平台上的并行程序性能分析及优化
文献类型:学位论文
作者 | 黄小敏 |
答辩日期 | 2017-05-25 |
文献子类 | 硕士 |
授予单位 | 中国科学院大学 |
授予地点 | 北京 |
导师 | 章隆兵 |
关键词 | 龙芯处理器 性能分析 非对齐访问 分支预测 Parsec |
学位专业 | 其它专业 |
英文摘要 | 龙芯处理器是具有自主知识产权的国产通用处理器。随着计算机体系结构的发展,并行程序成为多核处理器上一项重要的负载。为了提升龙芯处理器的市场竞争力,需要提高龙芯多核处理器的性能。 本文使用PARSEC并行测试集对比分析了龙芯和AMD两种多核平台的性能(两种四核处理器型号分别为龙芯3A2000和AMD Phenom(tm) II X4 820),并针对龙芯多核平台的性能瓶颈提出了相应的优化方案。本文的主要工作和贡献如下: 1.将PARSEC移植到龙芯平台上,并对比分析了PARSEC在两种平台上的原子操作和线程扩展性能。实验结果表明,龙芯的原子操作性能比AMD差,但其可扩展性更好。因为在原子操作的实现上,龙芯采用ll/sc指令,而AMD采用锁定内存总线的方式,后者使用的指令条数更少,但会独占使用共享内存。在线程扩展性能方面,龙芯比AMD好,因为龙芯基于目录的Cache一致性协议的核间通信开销比AMD基于侦听总线的Cache一致性协议低。 2.通过对比PARSEC在两种平台上的运行速度,分析出龙芯平台上由地址非对齐访问引起的性能瓶颈,并提出了使用MIPS中一对特殊的访存指令替换非对齐访存指令的优化方案。实验结果表明,使用该方案对存在非对齐访问的freqmine程序进行优化后,其性能提升了78.11%。 3.通过对比PARSEC在两种平台上的分支误预测率,分析出龙芯平台的分支预测精度不高,并提出了使用更长的全局转移历史和更复杂的索引机制来预测转移方向的优化方案。实验结果表明,使用上述优化方案后,本文所测程序的分支误预测率平均下降了51.39%。 本文针对龙芯平台存在的性能瓶颈提出的优化方案对改进龙芯处理器的结构设计具有指导意义。上述方案对其它MIPS处理器同样适用。 |
学科主题 | 计算机系统结构 |
语种 | 中文 |
公开日期 | 2017-06-29 |
源URL | [http://ictir.ict.ac.cn/handle/311040/2704] ![]() |
专题 | 中国科学院计算技术研究所学位论文_2017硕士 |
推荐引用方式 GB/T 7714 | 黄小敏. 龙芯平台上的并行程序性能分析及优化[D]. 北京. 中国科学院大学. 2017. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。