熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
集群 NVIDIA DGX Spark + M3 Ultra Mac Studio 以實現 4 倍更快的 LLM 推理。
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark 的記憶體頻寬比 M3 Ultra 少 3 倍,但 FLOPS 多 4 倍。
通過在 DGX Spark 上運行計算密集型的預填充,在 M3 Ultra 上運行記憶體密集型的解碼,並通過 10GbE 流式傳輸 KV 快取,我們能夠充分利用這兩種硬體,實現巨大的速度提升。
此主題的簡短說明及完整部落格文章的連結如下。

LLM 推理由預填充和解碼階段組成。
預填充處理提示,建立 KV 快取。它是計算密集型的,因此隨著 FLOPS 的增加而變得更快。
解碼從 KV 快取中讀取並逐個生成標記。它是記憶體密集型的,因此隨著記憶體帶寬的增加而變得更快。
我們可以在不同的設備上運行這兩個階段:
預填:DGX Spark(高計算設備,4倍計算)
解碼:M3 Ultra(高記憶體帶寬設備,3倍記憶體帶寬)
然而,現在我們需要通過網絡(10GbE)傳輸KV快取。這會引入延遲。
但是 KV 快取是為每個變壓器層創建的。通過在計算後發送每個層的 KV 快取,我們將通信與計算重疊。
我們串流 KV 快取並隱藏網絡延遲。
我們在預填充中實現了 4 倍的加速,在解碼中實現了 3 倍的加速,且網絡延遲為 0。
完整的部落格文章和有關 EXO 1.0 的更多細節:
感謝 @NVIDIA 提供兩台 DGX Sparks 的早期訪問。 #SparkSomethingBig
439.62K
熱門
排行
收藏

