一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

NVIDIA 给我们送来了 2 台 DGX Spark。一段时间以来，我们一直在想我们该如何使用它们。内存带宽为 273GB/s，使其在 batch_size=1 推理时比 M3 Ultra（819GB/s）慢 3 倍。但它的 FLOPS 是 M3 Ultra 的 4 倍（100 TFLOPS 对比 26 TFLOPS）。所以我们想，如果我们能将 DGX Spark 和 M3 Ultra 结合起来，利用 DGX Spark 的强大计算能力和 M3 Ultra 的超大内存带宽，那会怎么样呢。我们想出了一个方法，可以在两个设备之间分配推理，并在长提示下实现比单独使用 M3 Ultra 快 4 倍的加速。完整细节请参见下面链接的博客文章。