中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向申威多核处理器的快速傅立叶变换并行算法与自适应调优框架研究

文献类型:学位论文

作者路青霖
学位类别硕士
答辩日期2022-05-28
授予单位中国科学院研究生院
授予地点北京
导师刘芳芳
关键词申威多核处理器 FFT 计算图 自适应调优框架 高性能计算
学位专业计算机软件与理论
中文摘要

在数值计算、计算机图形、深度学习等领域中,快速傅立叶变换(Fast Fourier Transform,FFT)得到了广泛的应用。作为计算耗时占比较高的部分,采用高性 能的 FFT 数学库软件能够大幅提高其计算性能,缩短复杂应用的计算时间。伴 随着国产处理器的蓬勃发展,相关联的软件生态面临着配套软件少、适配不充分等问题,因此,面向国产处理器研发高性能基础软件对实现软硬件自主可控有着 重要的意义。在申威多核处理器上,现有开源 FFT 数学库软件无法充分发挥硬件性能,存在调优时间长、计算性能不稳定等问题,缺乏一套多层次的、完整的自适应调优框架及相应的 FFT 数学库软件。

本文面向国产申威多核处理器,针对开源数学库 FFTW 存在的问题设计并实现了支持 2 的幂次 FFT 计算的高性能数学库软件;针对国产处理器对称多处 理架构设计实现了负载均衡的并行任务划分算法;同时基于计算图模型实现了自动调优框架,利用硬件参数对 FFT 方案分解问题进行建模,实现计算方案的快速调优;运用自动代码生成、向量化、数据重排等优化技术进行优化。在申威 3231 平台上,本文设计实现的 FFT 数学库软件性能相比开源数学库 FFTW 实现平均 1.94 倍、最高 2.71 倍加速;32 线程下相比开源数学库 FFTW 实现平均 5.49 倍、最高 39.75 倍加速;自适应调优框架性能相比开源数学库 FFTW 实现平均 1030 倍加速。

英文摘要

Fast Fourier Transform (FFT) is widely used in numerical computing, computer graphics, deep learning, and other fields. As the relatively high percentage part of time consumption, using a high-performance FFT library can significantly improve the performance and reduce computation time in applications. Along with the rapid development of China’s domestic processors, the associated software ecology faces serious problems: few supporting software and inadequate adaptation. Therefore, developing essential, high-performance software for China’s domestic processors is significant for realizing independent software and hardware control. The existing open-source FFT library cannot fully utilize the hardware performance of the Sunway multi-core processor. There are problems such as long tuning time and unstable calculation performance. In addition, there is a lack of a multi-level and complete adaptive tuning framework and corresponding FFT library.

This paper designs and implements a high-performance library to support powerof-2 FFT computation for Sunway multi-core processors, including an adaptive tuning framework based on the computational graph model, which models the FFT decomposition problem using hardware parameters to achieve fast tuning, and a load-balanced parallel task partitioning algorithm for processors with symmetric multi-processing architecture. Meanwhile, we use automatic code generation, vectorization, data reordering, and other optimization techniques to optimize. On the Sunway 3231 platform, the performance of the FFT library designed and implemented in this paper achieves an average of 1.94 times and a maximum of 2.71 times speedup compared to the open-source library FFTW; an average of 5.49 times and a maximum of 39.75 times speedup compared to FFTW under 32 threads, and an average of 1030 times speedup compared to FFTW for the adaptive tuning framework.

学科主题并行处理 ; 软件理论
源URL[http://ir.iscas.ac.cn/handle/311060/19493]  
专题软件研究所_并行计算实验室 _学位论文
作者单位中国科学院软件研究所
推荐引用方式
GB/T 7714
路青霖. 面向申威多核处理器的快速傅立叶变换并行算法与自适应调优框架研究[D]. 北京. 中国科学院研究生院. 2022.

入库方式: OAI收割

来源:软件研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。