集群 NVIDIA DGX Spark + M3 Ultra Mac Studio 以實現 4 倍更快的 LLM 推理。 DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599 DGX Spark 的記憶體頻寬比 M3 Ultra 少 3 倍,但 FLOPS 多 4 倍。 通過在 DGX Spark 上運行計算密集型的預填充,在 M3 Ultra 上運行記憶體密集型的解碼,並通過 10GbE 流式傳輸 KV 快取,我們能夠充分利用這兩種硬體,實現巨大的速度提升。 此主題的簡短說明及完整部落格文章的連結如下。
LLM 推理由預填充和解碼階段組成。 預填充處理提示,建立 KV 快取。它是計算密集型的,因此隨著 FLOPS 的增加而變得更快。 解碼從 KV 快取中讀取並逐個生成標記。它是記憶體密集型的,因此隨著記憶體帶寬的增加而變得更快。
我們可以在不同的設備上運行這兩個階段: 預填:DGX Spark(高計算設備,4倍計算) 解碼:M3 Ultra(高記憶體帶寬設備,3倍記憶體帶寬) 然而,現在我們需要通過網絡(10GbE)傳輸KV快取。這會引入延遲。
但是 KV 快取是為每個變壓器層創建的。通過在計算後發送每個層的 KV 快取,我們將通信與計算重疊。 我們串流 KV 快取並隱藏網絡延遲。 我們在預填充中實現了 4 倍的加速,在解碼中實現了 3 倍的加速,且網絡延遲為 0。
完整的部落格文章和有關 EXO 1.0 的更多細節: 感謝 @NVIDIA 提供兩台 DGX Sparks 的早期訪問。 #SparkSomethingBig
439.62K