GPU 在大规模应用中不可靠。 在 @modal,我们已经在 AWS、GCP、Azure 和 OCI 上扩展到 20,000+ 个并发 GPU,启动了超过 1M 个实例。公共云 GPU 以多种方式失败,我们已经见证了其中大多数。 以下是我们如何处理 GPU 可靠性 👇