Les GPU sont peu fiables à grande échelle. Chez @modal, nous avons évolué à plus de 20 000 GPU concurrents sur AWS, GCP, Azure et OCI, avec plus de 1 million d'instances lancées. Les GPU dans le cloud public échouent de nombreuses manières, et nous en avons vu la plupart. Voici comment nous gérons la fiabilité des GPU 👇