介紹 NousCoder-14b,一個競爭性的奧林匹克編程模型。 我們最新的博客詳細說明了來自廣泛實驗和日誌的完整發現,完整堆棧已發布 - RL 環境、基準和在 Atropos 中構建的工具,所有這些都可以使用我們的開放訓練堆棧完全重現。 NousCoder-14b 是由駐校研究員 @JoeLi5050 使用 48 台 B200s 在 4 天內進行後訓練的,使用我們的 Atropos 框架和 @modal 的自動擴展器。它達到了 67.87% 的 Pass@1 準確率,比 Qwen 的基準準確率提高了 7.08%,使用可驗證的執行獎勵。