基于FPGA的卷积神经网络实现与验证
文献类型:学位论文
作者 | 肖祥位 |
答辩日期 | 2021-05 |
文献子类 | 硕士 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院光电技术研究所 |
关键词 | 卷积神经网络,硬件加速,fpga,改进型lenet5 |
学位名称 | 工程硕士 |
英文摘要 | 拥有庞大计算量的卷积神经网络(CNN)在通用处理器(CPU)上很难满足其实时性和低功耗的要求,而目前专用图像处理器(GPU)是用于计算CNN的主流处理器,但其仍具有高功耗和实时性不足等问题。FPGA是一种可编程逻辑器件,具有计算低延时、高度并行以及功耗低等优点。虽然使用FPGA来加速CNN日益受到关注,但尚处于发展初期,在FPGA上部署CNN仍然面临硬件调试困难,开发难度大,硬件资源难以支撑大规模CNN算法等问题。因此本文从部署小规模CNN着手,进行基于FPGA实现CNN的探索研究。 本文首先对卷积神经网络的原理、模块特点以及计算复杂度进行了研究与分析。针对使用频繁、计算复杂、耗时高的卷积层计算,设计了通用的卷积层计算加速器,通过分类计算精度分析进行了网络权重量化的研究,实现形成一个较为通用的基于FPGA的适应各种主流网络结构的CNN高速单元。基于该单元进行了改进型LeNet5网络的仿真实现,表明通过该计算加速在几乎保持网络分类精度的同时大为减少了网络计算量。该加速器仅使用FPGA的PL端,为纯逻辑的实现方式。 本文结合FPGA的硬件资源情况对改进型LeNet5网络并行计算进行研究分析,最终在FPGA上以并行度为32完成整个网络。本文研究方法同CPU、GPU方式以及其他文献实现CNN的结果进行对比,均占有一定优势。本文所设计的加速器在识别准确率上达到97.99%,相比已有实现方式准确率损失不到1%。在计算性能上本文研究实现的加速器达到7.75GOP/s,是通用CPU的32.3倍,能耗仅为CPU的0.65%。在计算速度上本文研究实现的加速器计算一张图片仅需38us,分别是CPU和GPU的37.7倍和3.6倍。在设计频率、功耗、能效比上与已有文献进行对比,均占有一定的优势。 |
语种 | 中文 |
DOI标识 | 无 |
URL标识 | 查看原文 |
源URL | [http://ir.ioe.ac.cn/handle/181551/10232] ![]() |
专题 | 光电技术研究所_光电技术研究所博硕士论文 |
推荐引用方式 GB/T 7714 | 肖祥位. 基于FPGA的卷积神经网络实现与验证[D]. 中国科学院光电技术研究所. 中国科学院大学. 2021. |
入库方式: OAI收割
来源:光电技术研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。