摘要中的聲明: "106B 參數的 MoE(12B 活躍)在我們的端到端 RL 基礎設施堆疊上進行了大規模強化學習訓練。" 我原本預期是從零開始的所有 RL。 現實:已存在的基礎模型 + SFT + RL 😿