前沿规模的AI取得了重大里程碑,由AMD提供支持。 @ZyphraAI成功训练了ZAYA1-Base,这是第一个完全在AMD平台上训练的大规模专家混合(MoE)基础模型,从计算到网络再到软件。 这一成就验证了我们一直在努力的方向:AMD Instinct MI300X GPU + Pensando Pollara网络 + ROCm软件 = 一个生产就绪的高性能大规模AI训练替代方案。 与@ZyphraAI和@IBM Cloud一起,我们共同设计并部署了一个集群,提供750+ PFLOPs(最大可实现FLOPS),利用192 GB HBM内存、400 Gbps Pollara NIC和完全优化的ROCm软件栈。 结果: ⚡ 一个前沿规模的MoE模型(总计8.3 B / 760 M活跃) ⚡ 竞争力的推理、数学和编码性能 ⚡ 高效的长上下文训练(最多32 K) ⚡ 在网络、内核和系统设计方面的突破 这证明了当AMD生态系统团结在一起时,可能实现的目标。AMD平台已为下一波AI创新做好准备。这仅仅是个开始。 在这里阅读@EmadBarsoumPi和@KarimBhalwani的博客: