Å trene massive Mixture-of-Experts (MoE)-modeller som DeepSeek-V3 og Llama 4-Scout effektivt er en av utfordringene i moderne AI. Disse modellene presser GPU-er, nettverk og kompilatorer til det ytterste. For å løse dette slo AMD og Metas PyTorch-team seg sammen for å finjustere TorchTitan og Primus-Turbo, AMDs åpne kildekode-kjernebibliotek, for de nye Instinct MI325X-GPUene. Sammen oppnådde de nærmest ideell skalering på tvers av 1 024 GPU-er, og viste at effektivitet og skala ikke trenger å være en avveining. 📎 Les vår siste blogg: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE