什么是深度学习?深度学习在FPGA上的优缺点

时间:2025-09-16  作者:Diven  阅读:0

什么是深度学习

什么是深度学习?深度学习在FPGA上的优缺点

为了解释深度学习,有必要了解神经网络。

神经网络是模拟人脑的神经元和神经网络的计算模型。


神经元和神经网络

作为具体示例,让我们考虑一个输入图像并识别图像中对象类别的示例。这个例子对应机器学习中的分类任务。

我们以一张“猫的图像”作为输入,教输入和输出的对应关系,这样神经网络的输出就是“这张图像是一只猫”。这个阶段称为学习。

在完成一定量的学习后,当一张新的猫图像输入到训练好的神经网络中时,就可以输出“This image is a cat”等图像识别结果。推理是使用经过训练的神经网络从未知输入中猜测输出的阶段。

神经网络内部有很多参数。具体来说,上图中连接节点的边被赋予了一个参数,称为“权重”,代表连接的强度。学习是通过逐渐改变这个参数来进行的。分配给某个神经网络的一组特定参数称为模型。

给定模型的一些输入,我们可以根据内部参数得到一些输出,但我们需要一些迹象表明这有多合理。此指标有多种类型,但经常使用称为准确性的。假设将 10 张猫的图像输入到预训练模型中,其中 9 张被确定为“猫”。在这一点上,该模型可以说具有 90% 的准确率。

你可以通过学习大量的输入输出对来获得更准确的模型。

有了上述机制,现在可以通过让神经网络模型学习各种问题来自动解决问题,创建高精度模型,并对新数据进行推理。

由于单个神经网络只能解决简单的问题,人们尝试通过构建深度神经网络 (DNN) 来解决更复杂的问题,深度神经网络是将这些问题多层连接起来的更深层网络。这称为深度学习。


深度学习的简单机制

目前,深度学习被用于现实世界中的各种场景,例如图像和语音识别、自然语言处理和异常检测,并且在某些情况下,记录精度超过了人类。这些是通过卷积神经网络 (CNN) 和递归神经网络 (RNN) 实现的,是在结构上进一步设计普通神经网络或其变体和组合的计算模型。

特别是,CNN 在图像识别领域表现非常出色,除了上述分类之外,还被用于多项任务(下面显示了四个示例)。


 

许多使用深度学习的技术、服务和业务已经出现,预计未来还会继续增加。

有许多关于深度学习主题的通俗易懂的书籍、网络文章和视频内容。

在 FPGA 上进行深度学习的好处

我们已经提到,许多服务和技术都使用深度学习,而 GPU 大量用于这些计算。这是因为矩阵乘法作为深度学习中的主要运算,其特点是计算所需数据的局部性和可重用性高,通过GPU计算很容易达到性能。

特别是当只需要推理时,由于不需要将神经元之间的运算结果保存在内存中,因此所需的数据量会减少。基于这一特性,也开始尝试使用FPGA进行深度学习推理。

事实上,微软的“ Project Brainwave ”在云端使用 FPGA 进行推理,并宣布将搜索引擎中 RNN 计算的延迟和吞吐量提高了 10 倍以上。

深度学习仍然主要使用 GPU 和 CPU 完成。在这里我们将仔细研究使用 FPGA 进行深度学习推理的好处。

可构建低功耗、节省空间的系统

FPGA 的计算并行度不如 GPU,但在很多计算上可以达到比 CPU 更高的并行度。单位时间的功耗往往低于 GPU,因此在功率受限系统中,FPGA 实现可能比 GPU 更适合 DNN 推理。计算性能和功耗之间存在折衷(Operations / Watt),因此需要根据系统要求进行仔细评估。

FPGA 还具有能够将整个系统安装在单个芯片上的优势。例如,将连接到FPGA的相机输入连接到深度学习计算电路,并根据计算结果改变系统的控制等应用可以在单个芯片上完成。与 GPU 不同,可以在没有 CPU 的情况下运行,因此可以构建一个比 CPU 使用更少功率和空间的系统。

实现超低延迟、节省空间的推理

FPGA的优势是低延迟,这对深度学习推理也很有效。

上述图像识别的深度学习有望应用于自动驾驶等对精度要求较高的系统中。由于也是一个具有严格延迟约束的系统,因此可能难以通过 CPU 和 GPU 实现,容易受到 DRAM 的响应速度和与外围设备的 IO 性能的影响。

使用低位宽数据可以减少延迟

FPGA可以使用任意位宽的数据,因此通过采用4位、2位等CPU和GPU难以获得的位宽,可以降低延迟,节省计算资源。

众所周知,即使使用具有一定低位宽的数据,深度学习推理也不会降低最终精度。目前据说8位左右可以提供稳定的准确率,但最新的研究表明,已经出现了即使降低到4位或2位也能获得很好准确率的模型和学习方法,越来越多的正在FPGA实现。

易于适应新的神经网络结构

深度学习是一个非常活跃的研究领域,每天都在设计新的 DNN。其中许多结合了现有的标准计算,但有些需要全新的计算方法。特别是在具有特殊结构的网络难以在 GPU 上实现高效的情况下,计算成为瓶颈并减慢整个深度学习过程。由于 FPGA 是可重构的,因此可能能够灵活地应对这种不规则的计算。

到目前为止,我们重点介绍了 FPGA 深度学习推理的优点,但也存在缺点。

运行频率低于 CPU 和 GPU,除非设计实现,否则性能往往较差。

与 CPU 和 GPU 相比实施成本高,FPGA 上支持深度学习的软件较少

很多DNN参数量大,很难在FPGA上简单实现

需要高数据精度的 DNN,例如单精度浮点数,往往会出现性能下降

需要高级专业知识来创建具有高推理准确性和低数据准确性的模型

有很多情况学习成为处理时间的瓶颈而不是推理,但用FPGA很难解决(几乎连研究水平都没有)

近年来,许多为深度学习计算而优化的 ASIC 被推向市场,GPU 配备了专门用于深度学习的电路。

基于这些,不得不说用FPGA做深度学习的好处并不多。与 DNN 权重降低相关的技术,如参数量化(或精度降低)和网络修剪,正在积极研究中,这些方法与 FPGA 非常兼容。

也有FPGA供应商发布高速深度学习IP,以及配备适合深度学习计算的硬件的SoC型FPGA等利好因素。深度学习与FPGA的实际应用还有很长的路要走,但我认为在未来有很大的潜力。

在这篇文章中,解释了两点:“什么是深度学习?”和“深度学习在FPGA上的优缺点”。

在后续文章中,我们将为简单的图像分类任务在 FPGA 上创建推理设计。本教程中创建的设计不会是利用上述 FPGA 优势的优秀设计,而是非常简单的设计。我将在后面的文章中展示之后的优化策略,但我希望能看出,如果不考虑复杂的优化,FPGA 上的开发非常简单。


审核编辑:刘清

猜您喜欢

如今电子设备日益普及的时代,高效稳定的电源管理很重要。同步整流升降压芯片作为一种先进的电源转换方案,正逐渐成为各种电子产品中的核心部件。能够在输入电压高于、低于...
2024-06-23 00:00:00

贴片电阻的封装尺寸与其功率大小密切相关。封装尺寸越大,电阻的散热面积就越大,所能承受的功率也就越大。这是因为电阻在工作时会发热,如果产生的热量不能及时散发出去,...
2024-11-26 11:29:52

压敏电阻作为重要的保护元件,应用于电路防雷、防过压等领域。TA-I(大毅)作为国内知名的压敏电阻品牌,凭借其优良的品质和多样的产品类型,赢得了众多客户的青睐。本...
2021-04-06 09:19:23

TO220-5L是一种广泛应用于功率电子设备中的封装类型,因其优良的散热性能和可靠性而受到青睐。尤其是在电源管理、功率放大器、驱动电路等领域,TO220-5L封...
2025-02-24 11:12:11

现今的FPGA设计规模越来越庞大,功能越来越复杂,因此FPGA设计的每个部分都从头开始着手是不切实际的。为了解决这一问题,可以采用复用现有通用模块的方法,将主要...
2023-05-22 14:35:00

现代市场中,配件的选择对于产品的整体性能和用户体验非常重要。本文将重点探讨“Accessories_17.5X5.8MM”这一特定配件的特点、优势及其应用场景,...
2025-03-05 00:53:16

当今高速发展的科技时代,电子设备对性能的要求越来越高,内存作为电子设备的关键部件,其性能直接影响着设备的运行速度和稳定性。DDR4 内存作为新一代内存标准,拥有...
2024-04-26 00:00:00

SOT89是一种常见的表面贴装封装类型,广泛应用于电子元器件中,尤其是小型集成电路和功率器件。由于其小巧的尺寸和良好的散热性能,SOT89成为了现代电子产品设计...
2025-02-24 09:38:12

贴片电阻上的12B并不是直接表示阻值大小,而是采用一种数字字母混合的编码方式。其中,12代表有效数字,而B代表乘数。要理解12B代表的阻值,需要将12乘以B对应...
2024-11-29 10:26:08

光敏电阻,亦称光电导体,是一种对光敏感的电阻器件,应用于光电探测、自动照明、光控开关等领域。的工作原理是利用光照强度的变化来改变其电阻值,从而实现对电流的控制。...
2025-03-17 21:31:06