訓練像 DeepSeek-V3 和 Llama 4-Scout 這樣的大型混合專家 (MoE) 模型高效運行是現代 AI 的挑戰之一。這些模型將 GPU、網絡和編譯器推向極限。 為了解決這個問題,AMD 和 Meta 的 PyTorch 團隊攜手合作,為新的 Instinct MI325X GPU 調整 TorchTitan 和 Primus-Turbo,AMD 的開源內核庫。兩者共同實現了在 1,024 個 GPU 上接近理想的擴展性,顯示出效率和規模不必是取捨。 📎 閱讀我們最新的博客: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE