DeepSeek-V3やLlama 4-Scoutのような大規模なMixture-of-Expert(MoE)モデルを効率的に訓練することは、現代AIにおける課題の一つです。これらのモデルは、GPU、ネットワーク、コンパイラの限界を極限まで押し広げています。 これに対処するため、AMDとMetaのPyTorchチームは協力し、TorchTitanとAMDのオープンソースカーネルライブラリであるPrimus-Turboを新しいInstinct MI325X GPU向けに調整しました。これらを合わせて、1,024台のGPUでほぼ理想的なスケーリングを実現し、効率とスケールがトレードオフである必要はないことを示しました。 📎 最新のブログをお読みください: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE