一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

結合 NVIDIA DGX Spark + Apple M3 Ultra Mac Studio，以 EXO 實現 4 倍更快的 LLM 推理。 DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16) DGX Spark 的 FLOPS 約為 M3 Ultra 的 4 倍，但內存帶寬少了 3 倍。通過結合這些設備並仔細重疊計算和網絡通信（超過 10GbE），我們能夠實現 4 倍的性能提升。怎麼做到的？ LLM 推理由兩個階段組成：預填充和解碼。預填充是計算密集型的，隨著 FLOPS 的增加而變得更快。解碼是內存密集型的，隨著內存帶寬的增加而變得更快。通過在 DGX Spark 上運行計算密集型的預填充，並在 M3 Ultra 上運行內存密集型的解碼，我們能夠實現預填充相比於單獨的 M3 Ultra Mac Studio 快 4 倍，生成相比於單獨的 DGX Spark 快 3 倍。更多詳情請參見下面的博客文章。