AI 引擎 - 2023.2 简体中文

AMD Versal™ 架构中引入的 AI 引擎阵列为计算密集型或高复杂性 DSP 应用（如 5G 无线或机器学习算法）提供了解决方案。AI 引擎属于高性能 VLIW 矢量 (SIMD) 处理器，具备集成存储器和互连结构，以便与器件的二维阵列网络中连接在一起的其他 AI 引擎核进行通信。

Versal 自适应 SoC 的 PDM 中的AI Engine（AI 引擎）页面可供 AI Core 系列器件以及部分 AI Edge 系列器件使用。PDM 用于估算特定配置的 AI 引擎块的功耗。下图显示了 AI 引擎功耗接口。

图 1. AI 引擎功耗接口

对于初期功耗估算，应提供 AI 引擎阵列的配置详细信息，例如，时钟频率、核数量、内核类型以及核的矢量负载平均百分比。受支持的内核类型为：Int8、Int16、Int32 和 Floating Point（浮点）。

提示：考量“Vector Load”（矢量负载）百分比时，请使用平均负载百分比。虽然内核可能占用 100% 的可用核运行时间，但仍应考量来自预取、存储器访问、NOP、串流和锁定停滞的开销。建议的范围为 30% 到 70%。

Data Memory（数据存储器）和Interconnect Load（互连负载）字段会根据所使用的 AI 引擎数量自动填充，并且可根据应用要求覆盖这些值。在每个 AI 引擎 tile 拼块中有 8 个存储体（每个存储体大小为 4 KB，总计每个拼块为 32 KB）。PDM 默认使用所有存储体，如果应用需访问的存储体数量较少，则可覆盖此设置。

“Memory R/W rate”（存储器读写速率）即每个 bank 的读/写存储器访问平均值。

提示： “Memory R/W rate”为平均值。默认情况下，PDM 使用 20%。该值建议范围为 10% 到 30%。

AI 引擎阵列接口允许访问其余 AMD Versal™ 自适应 SoC。可编程逻辑 (PL) 和片上网络 (NoC) 都有接口拼块，这些接口拼块以串流形式来表示。您可根据自己的设计应用来覆盖 PL/NoC 串流。互连字段均为只读，基于您的输入进行计算。PL 串流显示了 AI 引擎拼块第 1 行中可用的串流，并支持您指定使用的 64b PL 串流的数量。建议将 PL 串流设置为默认每使用 20 个 AI 引擎拼块即使用 14 条串流。但您也可以更改 PL 串流。当 PL 串流超出整个 AI 引擎阵列中可用串流数量时，您可看到 DRC（Utilization选项表中的单元格变为黄色）。

互连负载平均值采用固定值 12%，这对于功耗影响最小，可通过导入流程来覆盖此设置，如下一节中所述。时钟速度的最大范围取决于器件的速度等级，其中 1300 MHz 对应 –3H 等级。如需了解更多信息，请参阅 Versal 自适应 SoC AI 引擎架构手册(AM009)。