一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

集群 NVIDIA DGX Spark + M3 Ultra Mac Studio 以實現 4 倍更快的 LLM 推理。 DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599 DGX Spark 的記憶體頻寬比 M3 Ultra 少 3 倍，但 FLOPS 多 4 倍。通過在 DGX Spark 上運行計算密集型的預填充，在 M3 Ultra 上運行記憶體密集型的解碼，並通過 10GbE 流式傳輸 KV 快取，我們能夠充分利用這兩種硬體，實現巨大的速度提升。此主題的簡短說明及完整部落格文章的連結如下。

LLM 推理由預填充和解碼階段組成。預填充處理提示，建立 KV 快取。它是計算密集型的，因此隨著 FLOPS 的增加而變得更快。解碼從 KV 快取中讀取並逐個生成標記。它是記憶體密集型的，因此隨著記憶體帶寬的增加而變得更快。

我們可以在不同的設備上運行這兩個階段：預填：DGX Spark（高計算設備，4倍計算）解碼：M3 Ultra（高記憶體帶寬設備，3倍記憶體帶寬）然而，現在我們需要通過網絡（10GbE）傳輸KV快取。這會引入延遲。

但是 KV 快取是為每個變壓器層創建的。通過在計算後發送每個層的 KV 快取，我們將通信與計算重疊。我們串流 KV 快取並隱藏網絡延遲。我們在預填充中實現了 4 倍的加速，在解碼中實現了 3 倍的加速，且網絡延遲為 0。

完整的部落格文章和有關 EXO 1.0 的更多細節：感謝 @NVIDIA 提供兩台 DGX Sparks 的早期訪問。 #SparkSomethingBig

687