GPUs sind in großem Maßstab unzuverlässig. Bei @modal haben wir über 20.000 gleichzeitige GPUs über AWS, GCP, Azure und OCI skaliert, mit über 1 Million gestarteten Instanzen. GPUs in der Public Cloud fallen auf viele Arten aus, und wir haben die meisten davon gesehen. So gehen wir mit der Zuverlässigkeit von GPUs um 👇