TEL: 13764338070

推理芯片,正在成为巨大挑战!

Oct,24,2022 << Return list

由于应用的多样性以及每个应用对功率和性能的高度特定的需求,设计 AI/ML 推理芯片正在成为一项巨大的挑战。


简而言之,一种尺寸并不适合所有人,而且并非所有应用都能负担得起定制设计。例如,在零售店跟踪中,对于经过某个过道的顾客来说,允许有 5% 或 10% 的误差幅度是可以接受的,而在医疗诊断或汽车视觉中,准确度需要显著提高。但结果的准确性也会以功耗和性能以及设计复杂性为代价。再加上永远在线/无停机时间、吞吐量、数据流和管理、延迟和可编程性。


在人工智能中,准确度是衡量答案正确的概率,定义为正确预测的数量除以预测的总数。例如,如果在 100 个样本中,正确预测了 85 个样本,则准确率为 85%。


Palo Alto Networks 的高级数据科学家 Venkatesh Pappakrishnan 认为,ML 算法几乎不可能达到 100% 的预测准确率。一般来说,准确率在 80% 到 85% 的良好 ML 算法更符合实际。实现接近 95% 的准确度需要付出巨大的努力、时间、更深入的领域知识以及额外的数据工程和收集。最有可能的是,可以发布一个达到 75% 到 85% 准确率的模型,然后再进行改进。


另一个关键指标是精度,它直接影响准确性。在实现推理解决方案时,开发人员使用 int(x) 格式来表示整数。对于边缘推理,它通常是 int8 或更低。Int1 表示 1 位整数,而 Int8 表示 8 位整数。位值越高,精度越高。一个简单的类比是照片中的像素数。像素越多,分辨率越高。在推理中,int8 将产生比 int4 更高的准确度。但它也需要更多的内存和更长的处理时间。在一项测试中,NVIDIA 证明 int4 精度与 int8 相比具有 59% 的加速。


Arm 物联网和嵌入式、汽车和基础设施业务线的细分市场营销总监 Parag Beeraka 表示:“有广泛的准确性和精度要求,这一切都取决于用例。” “例如,如果 AI/ML 用于实时语言翻译,那么您确实需要具有更高的准确度和精确度才能使其易于理解。但如果将 AI/ML 用于对象识别用例,则所需的精度越高,AI/ML 模型映射到低功耗 AI 芯片的过程就越复杂。您可以通过牺牲一些精度和准确性来降低复杂性。这就是你看到很多使用 int8(8 位)格式的低功耗边缘 AI 芯片的原因,但你会看到很多更新的 ML 技术也支持更低(1 位)


那么何时何地进行这些权衡取决于应用程序和用例?


“准确性和精确度在很大程度上取决于系统级用例,”Cadence Tensilica AI DSP 产品营销总监 Suhas Mitra 说。“不同的指标用于确定某个应用程序可以容忍的准确度/精度。例如,在低功耗边缘物联网设备上运行的图像分类与需要更高准确性的基于汽车自主的系统相比,可能能够容忍更低的准确性。所有这些不仅影响设计软件的方式,还影响硬件。

GPU、FPGA 还是 ASIC?

在 AI/ML 芯片之上运行的是软件。各种 AI/ML 算法和实现随着时间的推移而发展。过去,算法会在 CPU 上运行。然而,越来越多的此类软件被嵌入到芯片中。对于边缘应用程序,正在部署特定的软件模块。


“人工智能算法跨越多种功能,”西门子 EDA 的 HLS 平台总监 Russ Klein 说。“有些相当适中,可以在嵌入式处理器上舒适地运行,而另一些则庞大而复杂,需要专门的专用硬件来满足性能和效率要求。许多因素有助于确定人工智能算法的部署位置,但软件、现成加速器或定制硬件的硬件/软件权衡与大多数嵌入式系统的情况类似。”


软件是迄今为止实现任何功能的最灵活和适应性最强的方法,并且提供了最便宜的开发。“软件是‘面向未来的’,” Klein说。“CPU 将运行任何尚未发现的推理算法。基于 CPU 的系统通常可以在部署时进行更新。然而,软件可能是部署人工智能算法最慢、最节能的方式。”


CPU、GPU、FPGA 和 ASIC 目前用于推理芯片。虽然 CPU 因其灵活性而仍在某些 AI/ML 推理应用中使用,但 GPU、FPGA 和 ASIC 因其更高的性能效率而成为深度神经网络 (DNN) 和卷积神经网络 (CNN) 的首选,它们的吸引力在于在各种新应用程序中不断增长。


GPU 具有非常高效的并行处理和内存管理。它们通常使用 C/C++ 高级语言,并且在高性能 DNN 和 CNN 应用程序(如数据中心和自动驾驶)中运行良好。然而,对于边缘推理应用,例如可穿戴设备和安全摄像头,GPU 可能过于耗电。


相比之下,FPGA 提供可编程 I/O 和逻辑块。使用硬件描述语言 (HDL) 等工具映射 AI/ML 模型的有效方法对于推理应用程序非常重要。高效的内存管理也很重要。


Flex Logix 的 IP 销售、营销和解决方案架构副总裁 Andy Jaros 表示:“低功耗、可编程性、准确性和高吞吐量是推动高效边缘 AI 解决方案的四个相互冲突的力量。” “具有特定模型加速器的 ASIC 解决方案将始终是最节能的解决方案,但会失去可编程性。多年来,嵌入式处理器得到了增强,以增加 AI 模型所需的乘法和累加 (MAC) 处理,但不具备满足高精度要求的 MAC 密度。”


Jaros 说,研究人员和系统设计人员现在正在探索将 eFPGA 用于 AI 处理解决方案的多种途径。“正在研究的方法包括特定于模型的处理器定制指令,其中指令集可以逐个模型更改。反过来,这种指令集的多功能性可以将 eFPGA DSP MAC 用于更传统的基于 FPGA 的加速器,利用在 FPGA 逻辑结构中非常有效地运行的二进制或三进制模型,同时保持合理的精度。利用 eFPGA 的可重编程性和灵活性使 AIoT 设备成为可能,最终客户可以为其应用选择正确的可编程性、功率、性能和精度组合,”他说。“将 eFPGA 用于 AI 还为最终用户提供了更高级别的安全性,因为它们的专有指令或加速器可以在制造后在安全的环境中进行编程。没有人需要看到他们的秘密电路。采用 PUF 技术的比特流加密,例如我们最近与 Intrinsic ID 的合作,为比特流保护增加了更高级别的安全性。”


通过它们的结构——与 GPU 和 FPGA 不同——ASIC 是为特定应用定制的。设计可能非常昂贵,具体取决于复杂性和工艺节点,例如,在设计流程后期进行更改以适应更新的协议或工程变更单可能会将这些成本推高。另一方面,由于特定应用程序的专用功能,该架构更加节能。


“如果低功耗是关键标准之一,那么 ASIC 是构建低功耗 AI 芯片的正确解决方案,”Arm 的 Parag 说。“如果终端设备是小批量产品,eFPGA 可能是一个不错的选择。但是,这可能会转化为更高的成本。某些细分市场可以满足 eFPGA 的需求,但大部分是 ASIC。”


根据安全和新兴技术中心发布的一份报告,与 CPU 技术相比,ASIC 在效率和速度方面的性能高达 1000 倍,而 FPGA 的性能高达 100 倍。GPU 提供高达 10 倍的效率和高达 100 倍的速度。这些芯片中的大多数都可以实现 90% 到几乎 100% 的推理精度。(见下表1)

“GPU、张量处理单元 (TPU) 或神经处理单元 (NPU) 等专用加速器可提供比通用处理器更高的性能,同时保持传统处理器的大部分可编程性,并展示出比 CPU 更高的推理效率。然而,随着专业化程度的提高,下一代人工智能算法可能会面临无法正确操作组合的风险。但是,实施为特定 AI 算法量身定制的专用 eFPGA/FPGA 或 ASIC 加速器可以满足最苛刻的要求。


关键的实时应用程序,例如自动驾驶,或那些必须从能量收集中汲取能量的应用程序,可以从定制开发的加速器中受益。但定制加速器的开发成本也是最高的,如果它们没有内置一定数量的可编程逻辑,它们可能很快就会过时。


“FPGA 或 eFPGA 保留了一定数量的可重新编程能力,但代价是比同等 ASIC 实现更高的功率和更低的性能,”Siemens EDA 的 Klein 说。


与大多数设计一样,可重用性降低了设计成本。在某些情况下,高达 80% 的芯片可能会在下一个版本中重复使用。对于推理设备,能够重复使用 IP 或芯片的其他部分也可以显著缩短上市时间,这很重要,因为算法几乎在不断更新。虽然通用芯片(例如 CPU)可用于通过不同的软件或算法进行推理,但代价是性能较低。另一方面,除非实现非常相似的应用程序,否则 ASIC 的可重用性受到更多限制。中间是 FPGA 或 eFPGA,它具有最标准的逻辑,允许以最小的努力重新编程软件。


Arm 的 Parag 说:“使部分设计可重用于 AI 有很多考虑因素。” “其中包括可扩展的硬件 AI/ML 加速器 IP(具有良好的仿真和建模工具)、支持可扩展硬件加速器 IP 上不同框架的软件生态系统,以及涵盖最广泛用例的多框架支持模型。”


其他人同意。“主要考虑的是如何快速映射新的 AI 模型拓扑,”Cadence 的 Mitra 说。“有时我们会陷入从硬件中榨取每一盎司的压力,但人工智能网络变化如此之快,以至于优化每一行逻辑可能会产生反效果。对于可重用的设计,它应该能够处理一个大而广泛的数学繁重的函数,包括各种格式的卷积、激活函数等。”

缩放因子

今天的 AI/ML 推理加速器芯片设计面临着将高性能处理、内存和多个 I/O 封装在一个小封装内的挑战。但高性能处理会消耗更多功率并产生更多热量,设计团队必须在性能、功率和成本之间取得平衡。


添加传感器融合——例如音频、视频、光、雷达——这会变得更加复杂。但至少可以利用一些行业经验。


“解决视频/图像接口中传感器融合问题的一个简单方法是采用 MIPI 标准,”Mixel 营销和销售高级经理 Justin Endo 说。“最初,MIPI 用于移动行业。它现在已经扩展到涵盖许多消费者和 AI/ML 边缘应用程序。例如,推理处理器 Perceive Ergo 芯片具有 2 个 MIPI CSI-2 和 2 个 CPI 输入以及一个 MIPI CSI-2 输出,它们支持两个同时图像处理管道——一个使用 4 通道 MIPI D 的高性能 4K -PHY CSI-2 RX 实例,以及一个使用 2 通道 MIPI D-PHY CSI-2 RX 实例的 2K/FHD。”


Perceive 的 Ergo 芯片是一种 ASIC,在视频推理应用中能够以 20mW 的速度实现 30 FPS。其他 AI/ML 芯片可能会消耗 2 到 5 瓦,具体取决于芯片架构。在家庭安全摄像头等电池供电的设备中,低功耗很重要。低功耗使电池的使用寿命更长,在可穿戴应用中,它还有助于设备在较低的温度下运行。


“效率很重要,”Perceive 首席执行官 Steve Teig 说。“当需要更高的性能时,功耗的差异会更加明显。例如,如果视频性能提高到 300 FPS,那么 Ergo 芯片的功耗将在 200 mW 左右,而其他芯片的功耗可能在 20W 到 50W 之间。这可能很重要。”


然而,并非每个人都以相同的方式衡量性能和功率。推理永远在线 ASIC 供应商Syntiant在由 tinyML 组织进行的推理 Tiny v0.7 测试中展示了其性能。在一项测试中,其产品的延迟时间分别为 1.8 和 4.3 毫秒,而其他产品的延迟时间为 19 到 97 毫秒。在能源/功耗类别中,Syntiant 的得分为 35 µJ 和 49 µJ,而其他公司的得分为 1,482 µJ 到 4,635 µJ。据 Syntiant 称,这些芯片可以在 140uW 下运行全面的推理操作。


但是在这些芯片之间进行比较是一个雷区。没有可用于衡量 AI/ML 推理性能的通用标准。因此,对于用户来说,重要的是要了解芯片在特定领域的实际工作负载下的性能,并将其置于对该终端市场重要的背景中。在某些应用程序中,性能可能比功耗问题更小,而在其他应用程序中可能正好相反。准确性与性能也是如此。为了实现更高的推理精度,需要更复杂的算法和更长的执行时间。

结论

平衡所有这些因素是 AI/ML 推理的一个持续挑战。什么是正确的芯片或芯片组合取决于应用程序和用例。在某些情况下,它可能是完全定制的设计。在其他情况下,它可能是现成的标准部件和重复使用的 IP 的某种组合,它们拼凑在一起以满足非常紧迫的期限。


“人工智能算法变得越来越复杂,计算量和参数呈指数级增长,”西门子 EDA 的 Klein 说。” 计算需求远远超过芯片改进,促使许多设计人员在部署 AI 算法时采用某种形式的硬件加速。对于某些应用,商业加速器或神经网络 IP 就足够了。但要求最苛刻的应用程序需要自定义加速器,以将开发人员从 ML 框架快速带入专门的 RTL。高级综合 (HLS) 提供了从算法到面向 ASIC、FPGA 或 eFPGA 的硬件实现的最快路径。HLS 减少了设计时间,或许更重要的是,它证明了 AI 算法已在硬件中正确实施,解决了许多验证挑战。”

半导体气柜配套专业供应商-必赢bwin官方网站