摘要中的声明: "106B参数的MoE(12B活跃)在我们的端到端RL基础设施堆栈上通过大规模强化学习进行训练。" 我原本期待从零开始进行所有的RL。 现实:已经存在的基础模型 + SFT + RL 😿