トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA DGX Spark + M3 Ultra Mac Studio をクラスタリングして、LLM 推論を 4 倍高速化します。
DGX スパーク: 128GB @ 273GB/秒、100 TFLOPS (fp16)、3,999 ドル
M3 ウルトラ: 256GB @ 819GB/秒、26 TFLOPS (fp16)、5,599 ドル
DGX Spark のメモリ帯域幅は M3 Ultra よりも 3 倍少ないですが、FLOPS は 4 倍です。
DGX Spark でコンピューティング バウンド プリフィルを実行し、M3 Ultra でメモリ バウンド デコードを実行し、10GbE 経由で KV キャッシュをストリーミングすることで、大幅な高速化で両方のハードウェアを最大限に活用できます。
このスレッドの簡単な説明と、以下のブログ投稿全文へのリンク。

LLM 推論は、事前入力とデコードの段階で構成されます。
Prefill はプロンプトを処理し、KV キャッシュを構築します。コンピューティングに縛られているため、FLOPSが増えるほど高速になります。
デコードはKVキャッシュを読み取り、トークンを1つずつ生成します。メモリに縛られているため、メモリ帯域幅が増えるほど高速になります。
これらの2つのステージを異なるデバイスで実行できます。
事前入力: DGX Spark (ハイ コンピューティング デバイス、4x コンピューティング)
デコード:M3 Ultra(高メモリ帯域幅デバイス、3倍のメモリ帯域幅)
ただし、KV キャッシュをネットワーク経由で転送する必要があります (10GbE)。これにより遅延が発生します。
ただし、KV キャッシュはトランス層ごとに作成されます。各レイヤーのKVキャッシュを計算後に送信することで、通信と計算を重ねます。
KVキャッシュをストリーミングし、ネットワーク遅延を非表示にします。
ネットワーク遅延を 0 で、プリフィルで 4 倍、デコードで 3 倍の高速化を実現しました。
EXO 1.0 に関するブログ投稿の全文と詳細:
2つのDGX Sparksに早期アクセスしてくれた@NVIDIAに感謝します。#SparkSomethingBig
439.62K
トップ
ランキング
お気に入り

