GPU không đáng tin cậy khi mở rộng quy mô. Tại @modal, chúng tôi đã mở rộng lên hơn 20.000 GPU đồng thời trên AWS, GCP, Azure và OCI, với hơn 1 triệu phiên bản được khởi chạy. GPU trên đám mây công cộng gặp sự cố theo nhiều cách, và chúng tôi đã thấy hầu hết trong số đó. Dưới đây là cách chúng tôi xử lý độ tin cậy của GPU 👇