Melatih model Mixture-of-Experts (MoE) besar-besaran seperti DeepSeek-V3 dan Llama 4-Scout secara efisien adalah salah satu tantangan dalam AI modern. Model-model ini mendorong GPU, jaringan, dan kompiler hingga batasnya. Untuk mengatasi hal ini, tim PyTorch AMD dan Meta bergabung untuk menyetel TorchTitan dan Primus-Turbo, perpustakaan kernel open source AMD, untuk GPU Instinct MI325X baru. Bersama-sama, mereka mencapai penskalaan yang mendekati ideal di 1.024 GPU, menunjukkan bahwa efisiensi dan skala tidak harus menjadi trade-off. 📎 Baca blog terbaru kami: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE