競技オリンピックプログラミングモデルNousCoder-14bをご紹介します。 最新のブログでは、広範な実験とログの全結果を詳述し、強化学習環境、ベンチマーク、Atroposに組み込まれたハーネスなど、すべてがオープントレーニングスタックで完全に再現可能なフルスタックを公開しています。 NousCoder-14bは、48台のB200を用いて4日間にわたり、駐在研究者@JoeLi5050 Qwen3-14Bの後処理訓練を受け、私たちのAtroposフレームワークと@modalの自動スケーラーを用いました。検証可能な実行報酬を用いて、Qwenの基準精度より67.87%+7.08%のPass@1精度を達成しています。