为什么要使用FPGA取代CPU和GPU？

发布时间：2022-12-06 16:02:43 所属栏目：应用来源：网络

导读： 如果需要计算一些数据，最常用的方法是针对 CPU 或 GPU 这样基于指令的架构编写计算所需的软件。或者采取一种更麻烦的办法，专门针对特定的计算需求设计出一套专用电路，而非面向 CPU 和 G

如果需要计算一些数据，最常用的方法是针对 CPU 或 GPU 这样基于指令的架构编写计算所需的软件。或者采取一种更麻烦的办法，专门针对特定的计算需求设计出一套专用电路，而非面向 CPU 和 GPU 这样的通用电路编写指令。

在设计出自己的电路后，还要设法实现所需设计，以便真正开始计算。此时可以考虑的一种方式，需要非常深厚的技术能力，你需要真正创建出能实现所需设计的电路（这种方式也叫做 ASIC，即专用集成电路）。

但此时还有一种更简单的方法，这也是本文的重点：使用现场可编程门阵列（Field Programmable Gate Array，FPGA）这种可重构的集成电路来实现自己的电路设计。我们可以将 FPGA 配置为自己需要的任何电路（只要 FPGA 能够容纳下）。这与很多程序员已经熟悉的，基于 CPU、GPU 指令的硬件编程方式有着很大差异。基于指令的硬件是通过软件配置的，而 FPGA 是通过指定所需硬件电路配置的。

FPGA 的优劣

为何要用 FPGA 来完成计算任务，而非选择更通用的 CPU 或 GPU？这种方式与 CPU 和 GPU 的差异主要体现在下列几方面：

下文将深入探讨上述这几个差异。

低延迟

如果需要为喷气式战斗机的无人驾驶功能计算数据，或开发高频算法交易引擎，低延迟肯定是必须的，此时需要让输入数据和得出结果之间的等待时间尽可能短。这些领域中 FPGA 远远胜过 CPU（或 GPU，因为 GPU 也需要通过 CPU 进行通信）。

FPGA 很容易可以实现 1 毫秒左右，甚至低于 1 毫秒的延迟，而就算表现最好的 CPU，其延迟通常也在 50 毫秒左右。更重要的是，FPGA 的延迟往往是确定的。能实现如此低的延迟，主要原因之一在于 FPGA 通常专用性更强：无需依赖通用操作系统，也无需通过通用总线（例如 USB 或 PCIe）通信。

什么是cpu卡 cpu卡和m1的安全性比较_cpu应用_怎么看cpu温度和cpu风扇转速

（也许）正在天上飞翔的 FPGA

连接性

我们可以借助 FPGA 将任何数据源cpu应用，例如网络接口或传感器直接连接到芯片。而 CPU 和 GPU 的做法与此大为不同，它们必须通过标准化总线（如 USB 或 PCIe）与数据源建立连接，并依赖操作系统向应用程序提供数据。与芯片直接连接可获得更高带宽（以及更低延迟）。

有些场合中，这样的高带宽是必不可少的，例如 LOFAR 和 SKA 这样的射电天文学应用程序。此类应用场景需要在现场部署大量专用传感器，并产生海量数据。但为了提高整个系统的可管理性，必须大幅减少传感器生成的数据量，随后传递给应用程序进行处理。因此荷兰射电天文研究所 ASTRON 设计了 Uniboard?，这是一种包含四块 FPGA 芯片的基板，其每秒可处理的数据量甚至超过了位于阿姆斯特丹的互联网交换中心！

cpu应用_怎么看cpu温度和cpu风扇转速_什么是cpu卡 cpu卡和m1的安全性比较

这些看似小巧的射电天线会生成海量数据。（图源：Svenlafe，en.wikipedia）

工程成本

在深入讨论能效问题前，先来看看 FPGA 一个最大的劣势：相比基于指令的架构（如 CPU 和 GPU），它们的编程 / 配置工作实在是太难了！一般来说，这些硬件电路是通过硬件描述语言（Hardware Description Languages，HDL）描述的，如 VHDL 和 Verilog，而软件则可通过各种编程语言，例如 Java、C 和 Python 编程而来。

从理论角度来看，硬件描述语言和编程语言都可用于表达任何计算（这两者都是图灵完备的），但工程方面的细节却存在极大差异。

该领域目前有一个新趋势：高级合成（High Level Synthesis，HLS），这是指使用诸如 OpenCL 或 C++ 等常规编程语言为 FPGA 编程，借此也可实现更高级的抽象。然而就算使用此类编程语言，FPGA 编程的困难程度依然要比为基于指令的系统编程高出一个数量级。

FPGA 编程最困难的部分在于漫长的编译过程。例如在使用英特尔 OpenCL 编译器的情况下，典型的 FPGA 程序编译通常需要 4-12 小时，这是因为要进行繁琐的“布局和布线（Place-and-route）”操作，将我们需要的自定义电路映射到 FPGA 资源，同时确保以尽可能短的路径实现所需结果。这是一种非常复杂的优化问题，整个过程需要投入巨大的运算能力。虽然英特尔提供了一种仿真器，让我们可以用较短时间测试最终结果的正确性，但确定并优化性能的过程依然要经历冗长的编译过程。

什么是cpu卡 cpu卡和m1的安全性比较_怎么看cpu温度和cpu风扇转速_cpu应用

编译过程为你的偷懒提供了一个好借口（图源：XKCD）。

能效

在对外交流中，英特尔始终将能效视作 FPGA 的一大显著优势。然而实际情况并不那么明显，浮点计算方面尤其如此。不过我们首先还是来看看 FPGA 在能效方面远远胜过 CPU 和 GPU 的应用场景。

FPGA 的高能效主要体现在逻辑计算和固定精度计算领域（而非浮点计算领域）。在密码学货币（如比特币）挖矿方面，这一特点让 FPGA 呈现出巨大优势。时至今日，几乎每个人都已经习惯于通过 FPGA 挖矿了。

顺带一提，目前几乎所有人在挖矿时都会使用 ASIC（专用集成电路），这就是一种针对某种具体应用专门设计的特殊集成电路。ASIC 是一种能效更高的解决方案，但前期需要付出更多投资来设计芯片，同时芯片的产量必须足够大才能分摊高昂成本。接着还是继续说回 FPGA 吧。

什么是cpu卡 cpu卡和m1的安全性比较_怎么看cpu温度和cpu风扇转速_cpu应用

FPGA 在能效方面的另一个优势在于，FPGA 基板无需主机即可直接通电运行，它有自己的输入 / 输出，因此还可以在主机方面节约能耗和资金。这一点与 GPU 计算完全不同，GPU 需要借助 PCIe 或 NVLink 与主机系统通信，因此必须装在主机中方能运行。（不过也有一个例外，NVidia Jetson 无需主机即可运行，但这并不是什么高端 GPU。）

浮点运算能效——FPGAvsGPU

诸如深度学习等很多高性能计算用例中，通常需要依赖浮点算法，这是 GPU 最擅长的领域之一。以前，FPGA 浮点运算效能非常低，因为必须通过逻辑块组装浮点单元，这一过程会耗费大量资源。

一些新型 FPGA，例如 Arria 10 和 Stratix 10 在 FPGA 构造中直接内置了浮点单元，浮点运算能力有了显著提升。额外增加的浮点运算单元是否可以改善 FPGA 的浮点计算能效？是否能比 GPU 能效更高？

那我们就用最先进的 GPU 和 FPGA 对比看看吧。目前市面上最先进的专业级 GPU 就是 Tesla V100 了，理论上最大运算速度可达 15 TFLOPS（万亿次浮点运算 / 秒，一种衡量浮点运算能力的标准单位），该 GPU 功耗约 250 瓦特。而目前市面上最先进的 FPGA 应该是 Nallatech 520C，其中搭载了 Altera/ 英特尔联合研发的 Statix 10 芯片，该基板的理论最大运算速度为 9.2 TFLOPS，功耗约为 225 瓦特。

如果从能效角度对比这两个设备，GPU 的能效无疑更高，理论上可实现 56 GFLOP/W（十亿次浮点运算 / 瓦特，这是一种衡量浮点运算能效的标准单位），而 FPGA 仅为 40.9 GFLOP/W。因此如果你目前就需要购买新的浮点运算硬件设备，并且需要配合主机使用，GPU 貌似会是更好的选择，至少从上述这种粗糙的对比中可以得出这样的结论。

然而两者的差距并不大，并且后续发布的新款 FPGA，例如这块即将发布的基于 Stratix 10 的 FPGA 在浮点运算方面很可能会实现比 Volta（译注：Tesla V100 的开发代号）更高能效。更重要的是，上述对比涉及的两种产品本身也有本质差异，毕竟 Tesla V100 使用了 12 纳米制程，而 Stratix 10 使用了更古老的 14 纳米制程。

根据上述对比，如果需要能效更高的浮点运算设备，那么现阶段依然有必要继续坚持选择 GPU，但这个对比并不能证明 GPU 在浮点运算方面能效始终更出色。浮点运算能效这场战役，目前的胜者是 GPU，但不久的将来战果可能会有所变化。

什么是cpu卡 cpu卡和m1的安全性比较_cpu应用_怎么看cpu温度和cpu风扇转速

（编辑：老榕树站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!