中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
异构 GPU 系统张量并行与模型并行优化

文献类型:学位论文

作者孙佳楠
答辩日期2024-05-13
文献子类硕士
关键词异构 GPU 张量并行 模型并行 深度学习 负载均衡
英文摘要

深度学习近年来得到了广泛的应用和发展,但随着深度学习模型规模与计算需求的快速增长,传统的计算方法已经无法满足需求。现阶段大规模模型训练方法主要针对同构 GPU 系统,难以在不同型号、不同数量的异构 GPU 系统上发挥出性能优势。在异构系统上,不同型号 GPU 的性能差异以及不同节点的 GPU 数量差异会导致负载不均衡的问题,从而影响系统整体利用率。本研究探究在异构 GPU 系统上训练大规模深度学习模型的方法,主要从张量并行和模型并行两个方向开展研究:
- 设计并开发一套非对称的张量并行框架。该框架针对包括在单 GPU、单服务器多 GPU 以及多服务器异构 GPU 等在内的多种场景,提高异构 GPU 系统上矩阵乘法的计算速度和效率,满足不同规模的张量计算场景需求。首先,针对单 GPU 场景,设计实现 Strassen 算法的 CUDA 版本,提升基于 GPU 的矩阵乘法性能;然后针对单服务器 GPU 场景,设计适应任务需求的计算任务分配方法,实现跨 GPU 的分布式矩阵乘法;最后针对多服务器异构 GPU 版本,设计实现基于 GPU 性能的任务分配,实现异构性能均衡。
- 设计并开发一套非对称的模型并行框架。该框架旨在适应不同配置的异构 GPU 系统,提高在异构系统上执行模型训练的性能。首先设计一种适应非均衡模型划分与计算子系统的模型并行方法,该方法充分考虑异构 GPU 系统的特点和限制,根据不同服务器的 GPU 数量和性能,针对性地分配样本,实现各子系统之间地负载均衡,减少不同子系统的同步等待时间。其次,设计子系统内部流水线训练模型,在子系统之间通过模型并行同步参数。

在上述研究基础上,开发实现以上两个框架:非对称张量并行框架 HetTP(Heterogeneous Tensor Parallel)和非对称模型并行框架 HetMP(Heterogeneous Model Parallel)。这两个框架旨在解决深度学习在异构 GPU 系统中面临的挑战,提高深度学习模型在大规模异构硬件环境中的训练效率。本研究通过实验验证了 HetTP 和 HetMP 两个框架的性能。在单 GPU、单服务器多 GPU 以及多服务器异构 GPU 多个场景之下,HetTP 执行矩阵乘法的最大性能提升分别 5%、90%、75%。在异构 GPU 系统上,HetMP 将异构系统训练大规模深度学习模型时的批量大小和计算速度分别提升约 3 倍和 2 倍。实验结果表明,本研究提出的异构张量并行和模型并行框架可提高异构系统上深度学习框架的性能,可在一定程度上解决当前深度学习框架难以适应异构系统的问题。

语种中文
页码84
源URL[http://ir.ia.ac.cn/handle/173211/56513]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
孙佳楠. 异构 GPU 系统张量并行与模型并行优化[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。