DPU は、DPUCVDX8G アーキテクチャ、バッチ数、演算ユニット番号、UltraRAM の使用量など、事前に定義されたオプションで構成できます。これらのオプションにより、DSP スライス、LUT、ブロック RAM、および UltraRAM の使用量を設定できます。
CPB_N
CPB_N パラメーターは、各バッチの AI エンジン 数を表し、DPUCVDX8G のピーク性能を決定します。CPB_N には 32 または 64 の値を指定できます。たとえば、CPB_N = 32 の場合、DPUCVDX8G の各バッチ ハンドラーは 32 個の AI エンジン を使用します。
BATCH_N
BATCH_N パラメーターは、DPUCVDX8G IP に統合されたバッチ ハンドラー数を指定します。このパラメーターに有効な値は、C32 の場合 1 ~ 6、C64 の場合 1 ~ 5 です。バッチ ハンドラー数が多いほど、AI エンジン数や IO リソースが多くなり、性能が向上しますが、DDR IO 帯域幅要件も高くなります。ユーザー アプリケーションに合わせて、性能、DDR IO、リソースのバランスをとることができます。
CU_N
CU_N パラメーターは演算ユニット数を指定します。このパラメーター値は、C32B1 と C64B1 の場合のみ 1 ~ 3 まで指定可能です。
UBANK_IMG_N
Versal デバイスには、ブロック RAM と UltraRAM の 2 種類のオンチップ メモリ リソースがあります。ブロック RAM の容量は 36Kb、UltraRAM の容量は 288Kb です。利用可能な RAM 数はデバイスに依存します。
1 つの DPUCVDX8G バッチ ハンドラーには 16 個の IMG BANK (1 バンクあたり 128K) があります。各 IMG BANK は、ブロック RAM または UltraRAM で構成できます。パラメーター UBANK_IMG_N は、UltraRAM で構成される IMG BANK の数を指定します。その他のバンクが、ブロック RAM で構成されるようになります。このパラメーターによって、オンチップ メモリ リソースを柔軟に使用できます。
UBANK_WGT_N
DPUCVDX8G には、バッチ ハンドラーの数にかかわらず、17 個の WGT BANK (バンクあたり 128K) があります。各 WGT BANK は、ブロック RAM または UltraRAM で構成できます。パラメーター UBANK_WGT_N は、Ultra RAM で構成される WGT BANK の数を指定します。その他のバンクが、ブロック RAM で構成されるようになります。このパラメーターによって、オンチップ メモリ リソースを柔軟に使用できます。
UBANK_BIAS
DPUCVDX8G には、バッチ ハンドラーの数にかかわらず、2 個の BIAS BANK (バンクあたり 32KB) があります。各 BIAS BANK は、ブロック RAM または UltraRAM で構成できます。パラメーター UBANK_BIAS は、Ultra RAM で構成される BIAS BANK を指定します。このパラメーターによって、オンチップ メモリ リソースを柔軟に使用できます。
アーキテクチャ | MAX URAM | MAX BRAM |
---|---|---|
CxxB1CU1 |
|
|
CxxB2CU1 |
|
|
CxxB3CU1 |
|
|
CxxB4CU1 |
|
|
CxxB5CU1 |
|
|
CxxB6CU1 |
|
|
LOAD_PARALLEL_IMG
LOAD_PARALLEL_IMG は、各 DPUCVDX8G バッチ ハンドラーのイメージを読み込む際の並列度を示します。各並列処理では、AXI4 インターフェイスを 1 つ使用してデータを転送します。したがって、DPUCVDX8G の M_IMG_AXI ポート数は、LOAD_PARALLEL_IMG の値に依存します。今回のリリースでサポートされる値は 2 のみです。並列度が高いほど、イメージを読み込む際のスループットが高くなり、必要な帯域幅も大きくなるため、PL リソースの使用量も多くなります。
SAVE_PARALLEL_IMG
SAVE_PARALLEL_IMG は、各 DPUCVDX8G バッチ ハンドラーのイメージを保存する動作の並列度を示します。各インスタンスは、AXI4 インターフェイスを 1 つ使用してデータ転送を転送します。Save モジュールは、書き込みチャネルの AXI4 インターフェイスを使用し、Load モジュールは読み出しチャネルの AXI4 インターフェイスを使用します。
今回のリリースでサポートされる値は 2 のみです。並列度が高いほど、イメージを読み込む際のスループットが高くなり、必要な帯域幅も大きくなるため、PL リソースの使用量も多くなります。