GPU-er er upålitelige i stor skala. Hos @modal har vi skalert til 20 000+ samtidige GPU-er på tvers av AWS, GCP, Azure og OCI, med 1M+ instanser lansert. Offentlige sky-GPUer feiler på mange måter, og vi har sett de fleste av dem. Slik håndterer vi GPU-pålitelighet 👇