GPU:er är opålitliga i stor skala. På @modal har vi skalat till 20 000+ samtidiga GPU:er över AWS, GCP, Azure och OCI, med 1 M+ instanser lanserade. Public-cloud-GPU:er misslyckas på många sätt, och vi har sett de flesta av dem. Så här hanterar vi GPU-tillförlitlighet 👇