AI 引擎 - 2023.2 简体中文

电源设计管理器 用户指南 (UG1556)

Document ID
UG1556
Release Date
2023-10-18
Version
2023.2 简体中文

AMD Versal™ 架构中引入的 AI 引擎阵列为计算密集型或高复杂性 DSP 应用(如 5G 无线或机器学习算法)提供了解决方案。AI 引擎属于高性能 VLIW 矢量 (SIMD) 处理器,具备集成存储器和互连结构,以便与器件的二维阵列网络中连接在一起的其他 AI 引擎核进行通信。

Versal 自适应 SoC 的 PDM 中的AI Engine(AI 引擎)页面可供 AI Core 系列器件以及部分 AI Edge 系列器件使用。PDM 用于估算特定配置的 AI 引擎块的功耗。下图显示了 AI 引擎功耗接口。

图 1. AI 引擎功耗接口

对于初期功耗估算,应提供 AI 引擎阵列的配置详细信息,例如,时钟频率、核数量、内核类型以及核的矢量负载平均百分比。受支持的内核类型为:Int8、Int16、Int32 和 Floating Point(浮点)。

提示: 考量“Vector Load”(矢量负载)百分比时,请使用平均负载百分比。虽然内核可能占用 100% 的可用核运行时间,但仍应考量来自预取、存储器访问、NOP、串流和锁定停滞的开销。建议的范围为 30% 到 70%。

Data Memory(数据存储器)和Interconnect Load(互连负载)字段会根据所使用的 AI 引擎数量自动填充,并且可根据应用要求覆盖这些值。在每个 AI 引擎 tile 拼块中有 8 个存储体(每个存储体大小为 4 KB,总计每个拼块为 32 KB)。PDM 默认使用所有存储体,如果应用需访问的存储体数量较少,则可覆盖此设置。

“Memory R/W rate”(存储器读写速率)即每个 bank 的读/写存储器访问平均值。

提示: “Memory R/W rate”为平均值。默认情况下,PDM 使用 20%。该值建议范围为 10% 到 30%。

AI 引擎阵列接口允许访问其余 AMD Versal™ 自适应 SoC。可编程逻辑 (PL) 和片上网络 (NoC) 都有接口拼块,这些接口拼块以串流形式来表示。您可根据自己的设计应用来覆盖 PL/NoC 串流。互连字段均为只读,基于您的输入进行计算。PL 串流显示了 AI 引擎拼块第 1 行中可用的串流,并支持您指定使用的 64b PL 串流的数量。建议将 PL 串流设置为默认每使用 20 个 AI 引擎拼块即使用 14 条串流。但您也可以更改 PL 串流。当 PL 串流超出整个 AI 引擎阵列中可用串流数量时,您可看到 DRC(Utilization选项表中的单元格变为黄色)。

互连负载平均值采用固定值 12%,这对于功耗影响最小,可通过导入流程来覆盖此设置,如下一节中所述。时钟速度的最大范围取决于器件的速度等级,其中 1300 MHz 对应 –3H 等级。如需了解更多信息,请参阅 Versal 自适应 SoC AI 引擎架构手册(AM009)