AI 引擎 - 2023.2 简体中文

Versal AI Core 系列可借助 AI 引擎提供突破性的 AI 推断加速，此 AI 引擎的计算性能较当前服务器级 CPU 高 100 倍。此系列应用范围广泛，包括用于云端动态工作负载以及超高带宽网络，同时还可提供高级安全性功能。AI 和数据科学家以及软硬件开发者均可充分利用高计算密度的优势来加速提升任何应用的性能。鉴于此 AI 引擎所具备的高级信号处理计算能力，它十分适合用于高度优化的无线应用，例如，射频、5G、回程 (backhaul) 和其他高性能 DSP 应用。

AI 引擎是超长指令字 (VLIW) 处理器阵列，具有高度优化的单指令流多数据流 (SIMD) 矢量单元，专用于各种计算密集型应用，尤其是数字信号处理 (DSP)、5G 无线应用和人工智能 (AI) 技术（如机器学习 (ML)）等。

AI 引擎是硬化的块，可提供多级并行处理能力，包括指令级并行处理和数据级并行处理。指令级并行度包括标量操作：最高 2 次移动、2 次矢量读取（加载）、1 次矢量写入（存储）和 1 条可执行的矢量指令，总计每个时钟周期达 7 路 VLIW 指令。数据级并行度是通过矢量级操作来实现的，其中每个时钟周期可执行多组数据操作。每个 AI 引擎都包含矢量处理器和标量处理器、专用程序存储器、本地 32 KB 数据存储器、可访问三个相邻方向内任一方向的任一本地存储器。它还可访问 DMA 引擎和 AXI4 互连开关，以通过串流来与其他 AI 引擎进行通信或者与可编程逻辑 (PL) 或 DMA 进行通信。请参阅 Versal 自适应 SoC AI 引擎架构手册(AM009) 以获取有关 AI 引擎阵列和接口的具体详细信息。

AI 引擎机器学习 (AIE‑ML) 块可交付的计算吞吐量是上一代 AI 引擎块的 2 倍。AIE‑ML 块的首要目标是机器学习推断应用，它能为广泛而丰富的推断应用提供业内首屈一指的单位功耗性能。请参阅 Versal 自适应 SoC AIE‑ML 架构手册(AM020) 以获取有关 AIE‑ML 功能特性和架构的具体详细信息。

作为应用开发者，您可以使用任一白箱或黑箱流程在 AIE‑ML 上运行 ML 推断应用。白箱流程使用库元素，您可在 AIE‑ML 编程环境中集成定制内核与数据流计算图。黑箱流程使用来自 AMD 的深度学习处理单元 (DPU) IP 来加速 AIE‑ML 块中的 ML 工作负载，这些 IP 都经过性能最优化。

AMD Vitis™ AI 用作为前端工具，以解析网络计算图、执行最优化、计算图量化并生成编译后的代码，此代码可在 AIE‑ML 硬件上运行。AIE‑ML 核拼块架构支持多种精度固定的数据类型和浮点数据类型，并拥有高密度高速度的流水线矢量处理片上存储器，可用于存储能对存储器中的多维张量进行寻址的片上张量和灵活的数据移动程序。通过正确选择片上/片外存储器中而输入/输出张量的覆层处理器架构以及空间和时间分布，即可达成较高的 AIE‑ML 处理核的计算效率。