As GPUs são pouco fiáveis em grande escala. Na @modal, escalámos para mais de 20.000 GPUs concorrentes na AWS, GCP, Azure e OCI, com mais de 1M de instâncias lançadas. As GPUs em nuvem pública falham de várias maneiras, e já vimos a maioria delas. Aqui está como lidamos com a fiabilidade das GPUs 👇