六边形区域快速傅里叶变换的CUDA-MPI算法及其实现
文献类型:期刊论文
作者 | 陈家杰 ; 李会元 ; 张先轶 |
刊名 | 数值计算与计算机应用
![]() |
出版日期 | 2012 |
卷号 | 33期号:1页码:59-72 |
关键词 | Fast Fourier Transform on the hexagon(FFTH) CUDA-MPI algorithm parallel sorting |
ISSN号 | 1000-3266 |
其他题名 | a cuda-mpi algorithm for the fast fourier transform on the hexagon and its implementation |
中文摘要 | 本文研究六边形区域上快速傅里叶变换(FFTH)的CUDA-MPI算法及其实现.首先,我们通过充分利用CUDA的层次化并行机制及其库函数,设计了FFTH的高效率的CUDA算法.对于规模为3×2048~2的双精度复数类型数据,我们设计的CUDA程序与CPU串行程序相比可以达到12倍加速比,如果不计内存和显存之间的数据传输,则加速比可达40倍;其计算效率与CUFFT所提供的二维方形区域FFT程序的效率基本一致.在此基础上,我们通过研究GPU上分布式并行数据的转置与排序算法,优化设计了FFTH的CUDA-MPI算法.在3×8192~2的数据规模、10节点×6GPU的计算环境下,我们的CUDA-MPI程序与CPU串行程序相比达到了55倍的加速;其效率比MPI并行版FFTW以及基于CUFFT本地计算和FFTW并行转置的方形区域并行FFT的效率都要高出很多.FFTH的CUDA-MPI算法研究和测试为大规模CPU+GPU异构计算机系统的可扩展新型算法的探索提供了参考. |
学科主题 | Mathematics |
语种 | 中文 |
公开日期 | 2012-11-12 |
源URL | [http://ir.iscas.ac.cn/handle/311060/14644] ![]() |
专题 | 软件研究所_并行计算实验室 _期刊论文 |
推荐引用方式 GB/T 7714 | 陈家杰,李会元,张先轶. 六边形区域快速傅里叶变换的CUDA-MPI算法及其实现[J]. 数值计算与计算机应用,2012,33(1):59-72. |
APA | 陈家杰,李会元,&张先轶.(2012).六边形区域快速傅里叶变换的CUDA-MPI算法及其实现.数值计算与计算机应用,33(1),59-72. |
MLA | 陈家杰,et al."六边形区域快速傅里叶变换的CUDA-MPI算法及其实现".数值计算与计算机应用 33.1(2012):59-72. |
入库方式: OAI收割
来源:软件研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。