Présentation de NousCoder-14b, un modèle de programmation olympique compétitif. Notre dernier blog détaille les résultats complets d'expériences et de journaux approfondis avec l'ensemble complet publié - l'environnement RL, le benchmark et le harnais construit dans Atropos, tous entièrement reproductibles avec notre pile d'entraînement ouverte. NousCoder-14b a été post-entraîné sur Qwen3-14B par le chercheur en résidence @JoeLi5050 en utilisant 48 B200s au cours de 4 jours, notre cadre Atropos et l'autoscaler de @modal. Il atteint une précision Pass@1 de 67,87 %, +7,08 % par rapport à la précision de base de Qwen en utilisant des récompenses d'exécution vérifiables.