中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向异构集群的分布式训练与优化算法

文献类型:学位论文

作者晁永越
答辩日期2023-05-19
文献子类硕士
关键词分布式深度学习 异构集群 任务分配 异步SGD算法
英文摘要

随着深度学习在自然语言处理,图像处理等方面的快速发展,数据集和网络 模型样本变得愈发复杂,这使得单机很难高效地完成训练任务。计算机集群上的 分布式并行训练方法应运而生。但在节点性能不同的异构集群中存在着慢节点 问题,即主流的分布式深度学习算法迫使所有的节点在分布式训练过程中等待 最慢节点,从而导致训练性能下降。为了优化分布式训练中异构集群的慢节点问 题,本文将从任务分配与分布式 SGD 算法两方面,探索面向异构集群的分布式 训练算法。

(1)基于全局节点信息的自适应集中式任务分配算法:为了使异构集群中各 节点获取到与之算力匹配的任务量,本文将等量任务分配改进为基于全局节点 信息的的自适应任务分配算法。该算法建立全局节点信息与新一轮各节点任务配比的数学模型获取每一轮各节点所需任务量占总任务量的比例,,分发任务量并调整 minibatch 大小,从而最小化节点相互等待时间,提高分布式训练性能。

(2)基于本地节点信息的自适应分布式任务分配算法:本文改进集中式任务 分配为分布式任务分配,提出基于本地节点信息的自适应分布式任务分配算法, 仅依靠节点自身的梯度计算时间,逐步递减或递增每轮的任务配比,平衡全局的 任务量。该算法基于设定时间阈值与自身梯度计算时间差,设定不同的变化步 长,提出不同的分布式分配策略,达到减少计算资源,提高训练速度的目的。

(3)基于动态局部环规约的异步 SGD 算法:由于同步 SGD 依赖全局环规 约,为了减少通信损耗,本文提出基于动态局部环规约的分布式异步 SGD 算 法。在每次参数融合时,通过随机设定的特殊节点收集同步等待区的节点,构建Partial-Reduce 的通信组,减少参数融合浪费的时间。本文将真实世界的异构集 群进行划分,借此提出策略性的动态局部环规约,通过有策略地设定特殊节点, 实现高效的动态局部环规约。除此之外,本文给出动态局部环规约算法中网络模型收敛性的数学分析。

上述方法在异构集群中能有效地提升分布式 SGD 算法的分布式训练速度, 增加网络训练时的吞吐量,能够为当前的分布式并行训练提供更广阔的思路与基础。

学科主题计算机科学技术 ; 人工智能其他学科 ; 并行处理
语种中文
页码96
源URL[http://ir.ia.ac.cn/handle/173211/52041]  
专题毕业生_硕士学位论文
通讯作者晁永越
推荐引用方式
GB/T 7714
晁永越. 面向异构集群的分布式训练与优化算法[D]. 2023.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。