Ефективно навчання масштабних моделей Mix-of-Experts (MoE), таких як DeepSeek-V3 та Llama 4-Scout, є одним із викликів сучасного ШІ. Ці моделі виводять GPU, мережі та компілятори до межі їхніх можливостей. Щоб вирішити це, команди AMD і PyTorch від Meta об'єднали зусилля, щоб налаштувати TorchTitan і Primus-Turbo, бібліотеку відкритого ядра AMD, для нових відеокарт Instinct MI325X. Разом вони досягли майже ідеального масштабування на 1 024 GPU, демонструючи, що ефективність і масштаб не обов'язково мають бути компромісом. 📎 Читайте наш останній блог: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE