GPU 在大規模運行時不可靠。 在 @modal,我們已經在 AWS、GCP、Azure 和 OCI 上擴展到 20,000+ 個並發 GPU,啟動了超過 1M 個實例。公共雲 GPU 以多種方式失效,我們已經見過大多數情況。 以下是我們如何處理 GPU 可靠性 👇