Treinar modelos massivos de Mistura de Especialistas (MoE) como DeepSeek-V3 e Llama 4-Scout de forma eficiente é um dos desafios da IA moderna. Esses modelos levam GPUs, redes e compiladores ao limite. Para enfrentar isso, as equipes da AMD e da Meta do PyTorch uniram forças para ajustar o TorchTitan e o Primus-Turbo, a biblioteca open source do kernel da AMD, para as novas GPUs Instinct MI325X. Juntos, eles alcançaram uma escalabilidade quase ideal em 1.024 GPUs, mostrando que eficiência e escala não precisam ser um compromisso. 📎 Leia nosso blog mais recente: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE