一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

将 NVIDIA DGX Spark 与 Apple M3 Ultra Mac Studio 结合，实现 4 倍更快的 LLM 推理，使用 EXO。 DGX Spark：128GB @ 273GB/s，100TFLOPS（fp16） M3 Ultra Mac Studio：512GB @ 819GB/s，26 TFLOPS（fp16） DGX Spark 的 FLOPS 大约是 M3 Ultra 的 4 倍，但内存带宽少 3 倍。通过结合这两台设备并仔细重叠计算和网络通信（超过 10GbE），我们能够实现 4 倍的性能提升。怎么做到的？ LLM 推理由两个阶段组成：预填充和解码。预填充是计算密集型的，随着 FLOPS 的增加而加快。解码是内存密集型的，随着内存带宽的增加而加快。通过在 DGX Spark 上运行计算密集型的预填充，在 M3 Ultra 上运行内存密集型的解码，我们能够实现与单独使用 M3 Ultra Mac Studio 相比，预填充速度提升 4 倍，与单独使用 DGX Spark 相比，生成速度提升 3 倍。更多细节请参见下面的博客文章。