NVIDIA DGX Spark + M3 Ultra Mac Studio をクラスタリングして、LLM 推論を 4 倍高速化します。 DGX スパーク: 128GB @ 273GB/秒、100 TFLOPS (fp16)、3,999 ドル M3 ウルトラ: 256GB @ 819GB/秒、26 TFLOPS (fp16)、5,599 ドル DGX Spark のメモリ帯域幅は M3 Ultra よりも 3 倍少ないですが、FLOPS は 4 倍です。 DGX Spark でコンピューティング バウンド プリフィルを実行し、M3 Ultra でメモリ バウンド デコードを実行し、10GbE 経由で KV キャッシュをストリーミングすることで、大幅な高速化で両方のハードウェアを最大限に活用できます。 このスレッドの簡単な説明と、以下のブログ投稿全文へのリンク。
LLM 推論は、事前入力とデコードの段階で構成されます。 Prefill はプロンプトを処理し、KV キャッシュを構築します。コンピューティングに縛られているため、FLOPSが増えるほど高速になります。 デコードはKVキャッシュを読み取り、トークンを1つずつ生成します。メモリに縛られているため、メモリ帯域幅が増えるほど高速になります。
これらの2つのステージを異なるデバイスで実行できます。 事前入力: DGX Spark (ハイ コンピューティング デバイス、4x コンピューティング) デコード:M3 Ultra(高メモリ帯域幅デバイス、3倍のメモリ帯域幅) ただし、KV キャッシュをネットワーク経由で転送する必要があります (10GbE)。これにより遅延が発生します。
ただし、KV キャッシュはトランス層ごとに作成されます。各レイヤーのKVキャッシュを計算後に送信することで、通信と計算を重ねます。 KVキャッシュをストリーミングし、ネットワーク遅延を非表示にします。 ネットワーク遅延を 0 で、プリフィルで 4 倍、デコードで 3 倍の高速化を実現しました。
EXO 1.0 に関するブログ投稿の全文と詳細: 2つのDGX Sparksに早期アクセスしてくれた@NVIDIAに感謝します。#SparkSomethingBig
439.62K