分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

NVIDIA DGX Spark + M3 Ultra Mac Studio をクラスタリングして、LLM 推論を 4 倍高速化します。 DGX スパーク: 128GB @ 273GB/秒、100 TFLOPS (fp16)、3,999 ドル M3 ウルトラ: 256GB @ 819GB/秒、26 TFLOPS (fp16)、5,599 ドル DGX Spark のメモリ帯域幅は M3 Ultra よりも 3 倍少ないですが、FLOPS は 4 倍です。 DGX Spark でコンピューティングバウンドプリフィルを実行し、M3 Ultra でメモリバウンドデコードを実行し、10GbE 経由で KV キャッシュをストリーミングすることで、大幅な高速化で両方のハードウェアを最大限に活用できます。このスレッドの簡単な説明と、以下のブログ投稿全文へのリンク。

LLM 推論は、事前入力とデコードの段階で構成されます。 Prefill はプロンプトを処理し、KV キャッシュを構築します。コンピューティングに縛られているため、FLOPSが増えるほど高速になります。デコードはKVキャッシュを読み取り、トークンを1つずつ生成します。メモリに縛られているため、メモリ帯域幅が増えるほど高速になります。

これらの2つのステージを異なるデバイスで実行できます。事前入力: DGX Spark (ハイコンピューティングデバイス、4x コンピューティング) デコード:M3 Ultra(高メモリ帯域幅デバイス、3倍のメモリ帯域幅) ただし、KV キャッシュをネットワーク経由で転送する必要があります (10GbE)。これにより遅延が発生します。

ただし、KV キャッシュはトランス層ごとに作成されます。各レイヤーのKVキャッシュを計算後に送信することで、通信と計算を重ねます。 KVキャッシュをストリーミングし、ネットワーク遅延を非表示にします。ネットワーク遅延を 0 で、プリフィルで 4 倍、デコードで 3 倍の高速化を実現しました。

EXO 1.0 に関するブログ投稿の全文と詳細: 2つのDGX Sparksに早期アクセスしてくれた@NVIDIAに感謝します。#SparkSomethingBig

439.62K

トップ

ランキング

お気に入り