結合 NVIDIA DGX Spark + Apple M3 Ultra Mac Studio,以 EXO 實現 4 倍更快的 LLM 推理。 DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16) DGX Spark 的 FLOPS 約為 M3 Ultra 的 4 倍,但內存帶寬少了 3 倍。 通過結合這些設備並仔細重疊計算和網絡通信(超過 10GbE),我們能夠實現 4 倍的性能提升。怎麼做到的? LLM 推理由兩個階段組成:預填充和解碼。 預填充是計算密集型的,隨著 FLOPS 的增加而變得更快。 解碼是內存密集型的,隨著內存帶寬的增加而變得更快。 通過在 DGX Spark 上運行計算密集型的預填充,並在 M3 Ultra 上運行內存密集型的解碼,我們能夠實現預填充相比於單獨的 M3 Ultra Mac Studio 快 4 倍,生成相比於單獨的 DGX Spark 快 3 倍。 更多詳情請參見下面的博客文章。