与 @AMD 和 @IBM 合作,我们 @ZyphraAI 正在分享 ZAYA1-base!这是第一个在集成的 AMD 硬件、软件和网络堆栈上运行的大规模模型。ZAYA1 使用 Zyphra 的新型 MoE 架构,具有 760M 的活跃参数和 8.3B 的总参数。 技术论文及更多内容如下👇
PR: 技术博客: 技术论文: Hugging Face:
在架构上,ZAYA1 遵循我们的 “MoE++” 配方: - 压缩卷积注意力 (CCA) [] - 新的 ZAYA1 路由器 - 每层残差缩放与学习门 这些在标准 MoE 的每 FLOP 和每参数的缩放曲线上表现更佳。
ZAYA1 路由器用以下方式取代传统线性路由器: - 向下投影残余流 - 应用指数深度平均(EDA)在层之间混合信息 - 每个专家使用 3 层 MLP - 使用受控制理论启发的平衡方案,使专家既忙碌又专业化
训练配方: - 总共 14T 代币 - 3 个阶段:以网络为重的预训练 → 数学/代码/结构为重的阶段 → 长上下文 + 推理的中期训练 - 课程随着时间的推移转向密集的 STEM + 推理数据 - 上下文扩展从 4k → 32k,通过上下文并行 CCA
我们的集群由 @IBMcloud 托管,由 128 个计算节点组成,每个节点包含: - 8 个 MI300X GPU,通过 InfinityFabric 互连 - 8 个 Pollara 400Gbps 节点间互连 - 2 个 Intel Xeon Platinum 8570 CPU 节点以双层轨道拓扑连接。
我们进行了共同设计以减少训练时间: - RMSNorm 的内核 + Muon 的牛顿-舒尔茨迭代 - Aegis,我们的自动容错系统以确保高正常运行时间 - 分布式检查点和重塑 - CP 和分布式 Muon 的新型并行方案
ZAYA1-base 相较于类似模型表现出色,成为我们后续后训练的强大基础模型。
尽管只有760M的活跃参数,ZAYA1-base在数学和编码基准测试中超越了Llama-3-8B等稠密模型,并且在与Qwen3-4B和Gemma3-12B的竞争中表现出色。在高pass@k设置中,基础模型接近专业推理模型的性能。
42.48K