如何使用 FPGA 实现深度学习

时间:2025-09-15  作者:Diven  阅读:0

这是新的系列教程,在本教程中,我们将介绍使用 FPGA 实现深度学习的技术,深度学习是近年来人工智能领域的热门话题。

如何使用 FPGA 实现深度学习

在本教程中,旨在加深对深度学习和 FPGA 的理解。

用 C/C++ 编写深度学习推理代码

高级综合 (HLS) 将 C/C++ 代码转换为硬件描述语言

FPGA 运行验证

在之前的文章中,我们已经依次抽取了推理核的任务并行度和循环并行度和数据并行性。在本文中,我们将继续优化。

最终版本包括全连接层的循环数据并行化

在上篇文章中《从FPGA说起的深度学习(八)-数据并行性》,全连接层是一个瓶颈,所以我们实现了一个优化了全连接层的版本。我不会在此处粘贴代码,因此请查看代码存储库中的linear.h (文末)。全连接层是向量和矩阵的乘积,因此与卷积层不同,不能在两个通道上并行化,但基本上可以使用与卷积层相同的过程进行优化。

如第 6 篇文章所示,当任务之间的处理时间一致时,任务并行性最有效。下表显示了最终版本的并行化程度和执行周期数,是根据这个目标进行参数调整的conv1, conv2, fc1, fc2。本来,处理fc2一直很低,但现在其内核基本平衡了。

并行度(输出通道)平行度(x方向)执行周期数执行时间(us)
conv1441274142.466
conv2481293743.119
fc141272143.399
fc213831.277

 

 

各层的并行度和处理性能

整体加速结果

从第8篇到第3篇,我们将任务并行化、循环并行化、数据并行化应用于推理内核。下表了这些方法的优化结果。

名称执行时间(毫秒/图像)比以前的实施提速相对于基线的改进百分比
基线20.811.001.00
任务并行化12.651.651.65
通过本地缓冲区减少外部存储器访问1.617.8612.93
循环并行化(仅限卷积层)0.612.6434.11
数据并行化 4×4(仅卷积层)0.3361.8161.93
最终版本0.04986.75417.87

另外,虽然在之前的文章中没有涉及到,但每个优化结果的资源使用情况如下:

名称BRAM_18KDSP48EFFLUT
基线49201359215600
任务并行化61201378515955
通过本地缓冲区减少外部存储器访问84211380016967
循环并行化(仅限卷积层)84211536318653
数据并行化 4×4(仅卷积层)86432233527020
最终版本90+633276433674

看执行性能,这些调优最终使其比基线快 417.87 倍。两个特别有效的是使用本地缓冲区减少外部内存访问和最终版本(加速完全连接的层+层之间的平衡)。这两者中,前者需要大量增加RAM资源,后者需要增加运算单元资源(DSP、LUT)。

另外,虽然我们已经实现了400多倍的性能提升,但即使是资源增量方面增速最高的DSP,也只是63 / 20 = 3.15翻了一番。特别是任务并行化和循环并行化是非常有利的结果,因为几乎不增加资源就可以提高性能。

即使使用当前内核,FPGA 内部仍有大量资源,因此可以应用进一步的优化。可以像这次一样进一步提取内核内部的数据并行性,也可以复制内核本身,取帧间的并行性。特别是,如果只使用前者,在综合时很难满足时序限制,所以我认为有时不得不采用后者的方法。

本次针对的 MNIST 数据集是一个非常小的数据集,图像大小为 28×28。该模型是一个非常轻量级的网络模型。如果将这些做成更真实的数据模型,计算规模会发生如下变化。

分辨率:28×28 -> 几百到几千的宽高

网络规模:2层(卷积层转换)->几十到几百

粗略计算一个真实模型所需的计算量,大约是本次创建的网络模型量的1000到100万倍。如果这个是1000倍左右的话,即使以现在配置的运算单元数也能处理几十毫秒的量级,但如果再增加的话,60fps这样的实时图像处理就会变得困难。为此,实际上使用量化和修建等技术来降低计算成本。我们将在下一篇也是最后一篇文章中介绍这些内容。

编辑:黄飞

 

猜您喜欢

湿度传感器的哪些特性影响测量准确度?湿度传感器测量准确度受到许多特性的影响。下面将详细介绍影响湿度传感器测量准确度的一些重要特性。1. 温度湿度传感器的测...
2023-12-25 14:28:00

监控式热成像仪是高科技设备,应用于安全监控、消防检查、设备维护等领域。其参数的选择直接影响到设备的性能和应用效果。分辨率是关键参数。高分辨率的热成像仪能够提供更...
2013-11-13 00:00:00

项目简介随着技术的进一步发展和需求的增长,社会对于安全与便捷的需求也在不断上升。在这个快节奏的时代,人们对于门禁系统的要求不再局限于简单的出入管理,更加注重系统...
2023-09-07 14:41:00

电阻器作为电子元器件中的基础元件,其性能直接影响到整个电路的稳定性和可靠性。TDK作为全球知名的电子元器件制造商,其生产的金属膜电阻凭借很好的品质和优异的性能,...
2017-10-16 11:15:30

风华高科,知名的电容制造商。其锂离子超级电容,技术领先。应用于电动汽车、储能系统等。本文将介绍风华高科的锂离子超级电容的特点和优势。卓越的能量密度风华高科的锂离...
2025-04-12 15:30:04

分流器作为测量电流和电压的重要元件,是不可少的配件。susumu分流器凭借其很好的性能和可靠的品质,成为众多电子产品和工业设备中的首选。本文将详细介绍susum...
2023-07-21 23:29:19

现代电子产品中,配件的选择和使用非常重要。尤其是“Accessories_10.25X3.35MM_SM”这种特定尺寸的配件,因其独特的规格和的适用性,逐渐受到...
2025-04-23 04:00:36

动力电池作为电动汽车的心脏,其安全和寿命很重要。而充电管理系统就像电池的守护者,通过一系列检测和控制,确保电池安全高效地充电,延长其使用寿命。那么,动力电池充电...
2024-04-11 00:00:00

PLC各型主机均内建2个通信接口的标准配置,即一个RS232和一个RS485通信接口,其RS232接口主要用于上下载程序或用来与上位机、触摸屏通信,而RS485...
2018-06-17 05:23:00

导线标记条支架作为电力工程中不可少的工具,具有多项显著优势。材质坚固耐用,能够承受恶劣环境的考验,确保长期稳定使用。支架设计灵活,适用于不同类型的导线标记条,方...
2008-04-02 00:00:00