スパース性

Versal アダプティブ SoC AIE-ML アーキテクチャマニュアル (AM020)

Document ID

AM020

Release Date

2023-11-10

Revision

1.2 日本語

多くのニューラルネットワークでは、負の値を 0 にクランプする ReLU 関数を使用するため、レイヤー間にゼロ活性化が生成されます。これらの任意の 0 は、ReLU 関数によって入力および出力活性化内に生成されます。AIE-ML タイルと AIE-ML メモリ DMA には伸張/圧縮ロジックが追加されているため、これらの 0 は AXI4-Stream を介して送信されません。ゼロ値のデータ重みもオフラインで圧縮できます。これらの重みは圧縮された状態で外部メモリから移動し、タイル DMA の S2MM チャネルで伸張されます。

さらに、AIE-ML コアは、たたみ込みを実行する前にゼロの重みを挿入することにより、データロード中のオンザフライの伸長をサポートします。この機能により、ゼロでない重みだけがローカルタイルメモリに格納されます。

AXI4-Stream 内の活性化の圧縮とコアのロード中の重みのオンザフライの伸長は、オプションの機能です。AIE-ML メモリおよび AIE-ML タイル DMA 内の圧縮/伸長は BD 内の専用ビットによって制御されます。次の図に、2 つの主要なユースケースを示します。

図 1. DMA 内での圧縮と伸長

図 2. コアロードインターフェイスでのオフラインの圧縮と伸長

次の図は、重みと活性化の両方からゼロを削除するように設計された圧縮アルゴリズムを示しています。このアルゴリズムは 8 ビットデータサンプルを処理し、32 ビットマスクを使用して 256 ビットワード内のゼロバイトとゼロでないバイトをエンコードします。ビットマスク内では、ゼロバイトは 0 で表現され、ゼロでないバイトは 1 で表現されます。ゼロ値のバイトは圧縮されたデータから省略されます。次のマスクが 32 ビット境界に揃えられるように、必要に応じてガードビットが挿入されます。この圧縮プロセスは、すべての 256 ビットデータワードに一貫して適用されます。

図 3. 8 ビットサンプルの圧縮