Đào tạo các mô hình Mixture-of-Experts (MoE) khổng lồ như DeepSeek-V3 và Llama 4-Scout một cách hiệu quả là một trong những thách thức trong AI hiện đại. Những mô hình này đẩy GPU, mạng và trình biên dịch đến giới hạn của chúng. Để giải quyết vấn đề này, các đội ngũ PyTorch của AMD và Meta đã hợp tác để điều chỉnh TorchTitan và Primus-Turbo, thư viện kernel mã nguồn mở của AMD, cho các GPU Instinct MI325X mới. Cùng nhau, họ đã đạt được khả năng mở rộng gần như lý tưởng trên 1.024 GPU, cho thấy rằng hiệu quả và quy mô không nhất thiết phải là một sự đánh đổi. 📎 Đọc blog mới nhất của chúng tôi: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE