Memperkenalkan NousCoder-14b, model pemrograman olimpiade kompetitif. Blog terbaru kami merinci temuan lengkap dari eksperimen ekstensif dan log dengan tumpukan penuh yang dirilis - lingkungan RL, benchmark, dan harness yang dibangun di Atropos, semuanya dapat direproduksi sepenuhnya dengan tumpukan pelatihan terbuka kami. NousCoder-14b telah dilatih pasca-pelatihan pada Qwen3-14B oleh peneliti residensi @JoeLi5050 menggunakan 48 B200 selama 4 hari, kerangka kerja Atropos kami, dan autoscaler @modal. Ini mencapai akurasi Pass@1 67,87%, +7,08% atas akurasi dasar Qwen menggunakan hadiah eksekusi yang dapat diverifikasi.