フロアプランのパフォーマンスへの影響

フロアプランのパフォーマンスへの影響 - 2023.2 日本語

Versal アダプティブ SoC システム統合および検証設計手法ガイド (UG1388)

Document ID

UG1388

Release Date

2023-11-15

Version

2023.2 日本語

フロアプランを開始する前に、Versal デバイスで主要なリソースが使用可能であることを確認します。これらのリソースには、AI エンジンアレイインターフェイス (またはシムタイル)、ブロック RAM、UltraRAM、DSP、NoC、および DDRMC が含まれます。

次の図に、XCVC1902 を Vivado IDE の Device ウィンドウで主要なリソースをハイライトして示します。この図には、ブロック RAM、UltraRAM などのファブリックメモリリソースがデバイス内でどのように分配されているかも示します。より良いシステムパフォーマンスを達成するには、ロジックの入力/出力ストリームの接続に基づいてフロアプランを作成することが重要です。次に、ロジックの入力/出力ストリームの例を示します。

AI エンジン-PL-NoC-DDRMC
AI エンジン-PL
PS-NoC-DDRMC

図 1. Versal デバイスの主要なリソース

次の図に、AI エンジンと PL のフロアプラン例を示します。このデザインには AI エンジン-PL データフローがあり、PL で UltraRAM リソースは使用されません。AI エンジンアレイインターフェイスに通信するデータフローの一部としてブロック RAM リソースのみが使用されている場合は、PL がデバイスの UltraRAM 列がない部分にマップされている領域に AI エンジンストリームをフロアプランできます。

図 2. AI エンジンおよび PL のフロアプラン

次の図に、NoC を介して DDRMC に読み出し/書き込みを実行する AI エンジンの GMIO を使用するデザインを示します。AI エンジンに GMIO をサポートする列があります。この図は、16 個の GMIO 対応列を含む XCVC1902 を Device ウィンドウで表示したものです。GMIO 対応列にアクセスする際は、次の点を考慮します。

適切な QoS 要件を指定し、NoC コンパイラでパスに最大帯域幅が割り当てられるようにします。
QoS 設定に基づいて、aiecompiler で GMIO 列が選択されるようにし、NoC コンパイラで適切な DDRMC の場所が選択されるようにします。
必要に応じて、GMIO を垂直 NoC (VNoC) の上の適切な列に制約し、DDRMC を VNoC の下に制約して、NoC を介するレイテンシを最小限にします。

図 3. GMIO 対応列

次に、AI エンジンおよび PL カーネルを含むデザインのフロアプラン例を示します。

AI エンジンアレイインターフェイス Pblock (JSON ファイル)
DDRMC の幅を決定し、aiecompiler に渡す <constraints>.json ファイルを作成します。
Pblock (XDC ファイル)
VNoC のサイズを決定し、標準 Vivado Vivado Design Suite XDC ベースの Pblock を使用します。詳細は、『Vivado Design Suite: プロパティリファレンスガイド』 (UG912) および『UltraFast 設計手法ガイド ( FPGA および SoC 用)』 (UG949) を参照してください。

次に、Pblock が指定された <constraints>.json の例の抜粋を示します。このファイルは、AI エンジンコンパイラの実行時に --constraints オプションを使用して指定します。

{
	"GlobalContraints":{
		"areaGroup":{
		"name": "unique_area_group_name",
		"exclude": true/false
		"nodeGroup": ["rx.*"],
		"tileGroup": ["(col,row):(col,row)"],
		"shimGroup": ["col: col:]
	}
}

この例について説明します。

nodeGroup: Pblock に指定するすべてのカーネルと PLIO をリストします。rx* は、名前が rx で開始するすべてのインスタンスを示します。
tileGroup: カーネルを配置する AI エンジンアレイの Pblock 範囲を示します。

shimGroup: AI エンジンアレイインターフェイスのアレイインターフェイスインスタンス (PLIO など) を配置する Pblock 範囲を示します。

また、次の点にも注意してください。

AI エンジンから PL へのデータフローがある場合、DSP、ブロック RAM、および UltraRAM 列を確認し、AI エンジンチャネルを使用すると、リソースを最大限に活用できます。
たとえば、DSP が不要な PL モジュールでは、DSP 列の近くにある AI エンジンチャネルは必要ありません。
デバイス全体にパイプライン段がどのように分配されているかに基づいて、マクロにパイプライン段を挿入します。
たとえば、データは AI エンジン-PL チャネルを介してメモリに格納されます。これは標準的な要件ですが、AI エンジン-PL チャネルと並んだメモリは十分にありません。
ロジックの入力ストリームおよび出力ストリームの接続に基づいて、フロアプランを作成します。
たとえば、出力ストリーム用には PL-NoC-DDR にフロアプランし、入力ストリーム用には DDR-NoC-PL-AI エンジンにフロアプランします。