异构 GPU 系统张量并行与模型并行优化
文献类型:学位论文
作者 | 孙佳楠![]() |
答辩日期 | 2024-05-13 |
文献子类 | 硕士 |
关键词 | 异构 GPU 张量并行 模型并行 深度学习 负载均衡 |
英文摘要 | 深度学习近年来得到了广泛的应用和发展,但随着深度学习模型规模与计算需求的快速增长,传统的计算方法已经无法满足需求。现阶段大规模模型训练方法主要针对同构 GPU 系统,难以在不同型号、不同数量的异构 GPU 系统上发挥出性能优势。在异构系统上,不同型号 GPU 的性能差异以及不同节点的 GPU 数量差异会导致负载不均衡的问题,从而影响系统整体利用率。本研究探究在异构 GPU 系统上训练大规模深度学习模型的方法,主要从张量并行和模型并行两个方向开展研究: 在上述研究基础上,开发实现以上两个框架:非对称张量并行框架 HetTP(Heterogeneous Tensor Parallel)和非对称模型并行框架 HetMP(Heterogeneous Model Parallel)。这两个框架旨在解决深度学习在异构 GPU 系统中面临的挑战,提高深度学习模型在大规模异构硬件环境中的训练效率。本研究通过实验验证了 HetTP 和 HetMP 两个框架的性能。在单 GPU、单服务器多 GPU 以及多服务器异构 GPU 多个场景之下,HetTP 执行矩阵乘法的最大性能提升分别 5%、90%、75%。在异构 GPU 系统上,HetMP 将异构系统训练大规模深度学习模型时的批量大小和计算速度分别提升约 3 倍和 2 倍。实验结果表明,本研究提出的异构张量并行和模型并行框架可提高异构系统上深度学习框架的性能,可在一定程度上解决当前深度学习框架难以适应异构系统的问题。 |
语种 | 中文 |
页码 | 84 |
源URL | [http://ir.ia.ac.cn/handle/173211/56513] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 孙佳楠. 异构 GPU 系统张量并行与模型并行优化[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。