NVIDIA 给我们送来了 2 台 DGX Spark。 一段时间以来,我们一直在想我们该如何使用它们。 内存带宽为 273GB/s,使其在 batch_size=1 推理时比 M3 Ultra(819GB/s)慢 3 倍。但它的 FLOPS 是 M3 Ultra 的 4 倍(100 TFLOPS 对比 26 TFLOPS)。 所以我们想,如果我们能将 DGX Spark 和 M3 Ultra 结合起来,利用 DGX Spark 的强大计算能力和 M3 Ultra 的超大内存带宽,那会怎么样呢。 我们想出了一个方法,可以在两个设备之间分配推理,并在长提示下实现比单独使用 M3 Ultra 快 4 倍的加速。 完整细节请参见下面链接的博客文章。