要旨からの主張: 「106BパラメータのMoE(12Bアクティブ)が、エンドツーエンドの強化学習インフラスタック上で大規模な強化学習で訓練済み。」 私はすべてのRLを一からやり直すと思っていました。 現実:既存のベースモデル+SFT+RL 😿(強化モデル)です