将 NVIDIA DGX Spark 与 Apple M3 Ultra Mac Studio 结合,实现 4 倍更快的 LLM 推理,使用 EXO。 DGX Spark:128GB @ 273GB/s,100TFLOPS(fp16) M3 Ultra Mac Studio:512GB @ 819GB/s,26 TFLOPS(fp16) DGX Spark 的 FLOPS 大约是 M3 Ultra 的 4 倍,但内存带宽少 3 倍。 通过结合这两台设备并仔细重叠计算和网络通信(超过 10GbE),我们能够实现 4 倍的性能提升。怎么做到的? LLM 推理由两个阶段组成:预填充和解码。 预填充是计算密集型的,随着 FLOPS 的增加而加快。 解码是内存密集型的,随着内存带宽的增加而加快。 通过在 DGX Spark 上运行计算密集型的预填充,在 M3 Ultra 上运行内存密集型的解码,我们能够实现与单独使用 M3 Ultra Mac Studio 相比,预填充速度提升 4 倍,与单独使用 DGX Spark 相比,生成速度提升 3 倍。 更多细节请参见下面的博客文章。