AI エンジン - 2023.2 日本語

Versal アダプティブ SoC デザイン ガイド (UG1273)

Document ID
UG1273
Release Date
2023-10-25
Version
2023.2 日本語

Versal AI コア シリーズは、現在のサーバー クラス CPU の 100 倍以上の演算性能を達成する AI エンジンを備え、AI 推論を飛躍的に高速化します。このシリーズは、動的ワークロードに対応したクラウドや、超高帯域ネットワークなど幅広いアプリケーションをサポートすると同時に、最先端の安全性とセキュリティ機能を提供します。ソフトウェア開発者、ハードウェア開発者だけでなく、AI およびデータ サイエンティストも高い演算密度を利用してあらゆるアプリケーションの性能を加速できます。高度な信号処理演算性能を備えた AI エンジンは、無線、5G、バックホールなどの高度に最適化されたワイヤレス アプリケーションや、その他の高性能 DSP アプリケーションに最適です。

AI エンジンは SIMD (Single Instruction Multiple Data) ベクトル ユニットを備えた VLIW (Very-Long Instruction Word) プロセッサで構成されており、特にデジタル信号処理 (DSP)、5G ワイヤレス アプリケーション、機械学習 (ML) をはじめとする人工知能 (AI) テクノロジなど、高い演算処理能力を必要とするアプリケーションに高度に最適化されています。

AI エンジンは、命令レベルやデータ レベルの並列性など、複数のレベルの並列処理をサポートしています。命令レベルの並列性としては、1 つのスカラー命令、最大 2 つの移動、2 つのベクトル読み出し (ロード)、1 つのベクトル書き込み (ストア)、および 1 つのベクトル命令を 1 クロック サイクルで実行できます (7 ウェイ VLIW 命令)。データ レベルの並列性は、1 クロック サイクルで複数のデータ セットを処理できるベクトル レベルの演算によって実現しています。各 AI エンジンはベクトルおよびスカラー プロセッサ、専用プログラム メモリ、ローカル 32 KB データ メモリを内蔵し、隣接する 3 方向のローカル メモリにアクセスできます。また、DMA エンジンおよび AXI4 インターコネクト スイッチにアクセスして、ほかの AI エンジンやプログラマブル ロジック (PL)、または DMA との間でストリームを介して通信することもできます。AI エンジン アレイおよびインターフェイスの詳細は、 『Versal アダプティブ SoC AI エンジン アーキテクチャ マニュアル』 (AM009) を参照してください。

AI エンジン ML (AIE-ML) ブロックは、以前の AI エンジン ブロックと比較して 2 倍の演算スループットを達成します。主に機械学習の推論アプリケーションを対象とする AIE-ML ブロックは、幅広い推論アプリケーションで業界トップクラスのワットあたり性能を実現します。AIE-ML の特長およびインターアーキテクチャの詳細は、 『Versal アダプティブ SoC AIE -ML アーキテクチャ マニュアル』 (AM020) を参照してください。

アプリケーション開発者は、ホワイト ボックス フローまたはブラック ボックス フローのいずれかを使用して、AIE-ML で ML 推論アプリケーションを実行できます。ホワイト ボックス フローでは、ライブラリ要素を使用することにより AIE-ML プログラミング環境でカスタム カーネルとデータフロー グラフを統合できます。ブラック ボックス フローでは、パフォーマンス最適化された AMD Deep learning Processing Unit (DPU) IP により、AIE-ML ブロックの ML ワークロードが高速化されます。

AMD Vitis™ AI はフロントエンド ツールとして使用され、ネットワーク グラフの解析、最適化、グラフの量子化、AIE-ML ハードウェア上で実行可能なコンパイル済みコードの生成を行うことができます。AIE-ML コア タイル アーキテクチャは、パイプライン ベクトル プロセッシング、オンチップ テンソルの保存に使用できる高密度で高速なオンチップ メモリ、およびメモリ内の多次元テンソルを処理できる柔軟なデータ ムーバーで、多倍精度の固定小数点データ型および浮動小数点データ型をサポートします。オーバーレイ プロセッサ アーキテクチャを適切に選択し、オン/オフチップ メモリで入力/出力テンソルを空間的および時間的に分散させることで、AIE-ML プロセッシング コアの演算処理効率をより向上させることができます。