中国科学院机构知识库网格系统: 基于软硬件协同设计的深度学习模型压缩与加速

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于软硬件协同设计的深度学习模型压缩与加速

文献类型：学位论文


作者	刘泽健
答辩日期	2023-05
文献子类	博士
关键词	软硬件协同设计模型压缩 DNN 加速器自动化优化
英文摘要	近年来以深度神经网络为核心的深度学习在人工智能领域的诸多任务上取得了接近乃至超越人类的水平，但是由于深度神经网络大多具有极高的计算量和存储需求，无论是在云端服务器上部署，还是转移到智能手机等边缘设备上，都面临着延迟高、能耗大的问题。为了更加高效地完成深度神经网络的训练以及推理，研究者从算法和硬件两个角度提出了多种解决方案。在算法方面，出现了一系列尝试降低模型需要的计算量和存储量的模型压缩方法，比如使用低比特数据类型存储模型的模型量化、去除模型中冗余计算的模型剪枝和设计更加高效的计算模块的轻量化模型设计。在硬件方面则是设计更加适合深度神经网络运行的领域专用架构芯片，即深度神经网络加速器。早期的深度神经网络加速器研究主要集中在对架构的优化上，通过并行运算和数据复用等方法提高计算效率。但是随着架构优化带来的收益逐渐接近上限，研究者开始将算法设计和加速器设计结合，提出了如面向量化模型、面向稀疏模型的加速器等。通过结合模型压缩带来的计算量降低等收益和专用架构的高效性，进一步提高了加速器的性能。这种同时考虑算法设计和加速器设计的方法论便是软硬件协同设计。本文以软硬件协同设计为主要方法论，以提高模型的执行效率为主要目标，分别探讨了硬件友好的模型压缩方法、专用加速器的架构设计和模型结构与加速器架构的自动优化三个问题，其设计空间不断扩大，因此可带来的性能提升逐渐增加。本文的主要研究内容和创新点如下： 1）针对使用静态剪枝的模型难以兼具硬件友好性和高准确率的问题，本文提出了一种动态结构化剪枝方法。具体来说，考虑到对于不同的输入，模型中同一计算部分对于模型性能的贡献会发生改变，本文实现了可以根据给定的输入自适应判断属于冗余计算的部分并进行剪枝的动态剪枝模型，其核心机制是在模型中额外添加的可以判断计算是否冗余的预测器。进一步地，为了能够更好地控制模型的稀疏度，并提高模型的性能，本文对预测器的结构设计和模型的训练方式进行了深入探讨，提出了多项改进策略，使得模型可以在计算量和准确率上实现更好的平衡。 2）针对BERT模型在通用处理器上计算速度慢，且先前的卷积神经网络加速器难以高效处理BERT模型的问题，本文基于软硬件协同设计的方法提出了一个解决方案。具体来说，本文首先提出了一种面向BERT模型的量化方法，降低了模型的存储需求。然后通过分析模型的执行情况，挖掘其中存在的并行计算和数据复用，设计了面向BERT模型的专用加速器架构。实验表明，该加速器可以在速度和能效比上大幅超越通用处理器，再次证明了软硬件协同设计的有效性。 3）针对过往的自动化模型结构、加速器架构优化方法优化效率低的问题，本文提出了一种更加高效的优化方法，并实现了一个基于强化学习的优化框架。具体地，过去的自动优化工作中大多没有显式引入模型结构和加速器架构间的相互影响，因此搜索过程缺少指导，需要花费大量的时间。本文则提出了一种显式利用模型和加速器的相互联系的优化方法，并基于该方法实现了一个使用强化学习作为优化算法的自动优化框架。在多个数据集上的实验表明，本文提出的方法可以显著缩短优化的时间，并提高优化方案的性能。
学科主题	计算机系统结构
语种	中文
页码	122
源URL	[http://ir.ia.ac.cn/handle/173211/52031]
专题	毕业生_博士学位论文类脑芯片与系统研究
推荐引用方式 GB/T 7714	刘泽健. 基于软硬件协同设计的深度学习模型压缩与加速[D]. 2023.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。