Giới thiệu NousCoder-14b, một mô hình lập trình olympiad cạnh tranh. Blog mới nhất của chúng tôi chi tiết đầy đủ các phát hiện từ các thí nghiệm và nhật ký rộng rãi với toàn bộ stack được phát hành - môi trường RL, tiêu chuẩn và bộ công cụ được xây dựng trong Atropos, tất cả đều có thể tái tạo hoàn toàn với stack đào tạo mở của chúng tôi. NousCoder-14b đã được huấn luyện thêm trên Qwen3-14B bởi nhà nghiên cứu đang cư trú @JoeLi5050 sử dụng 48 B200s trong suốt 4 ngày, framework Atropos của chúng tôi, và bộ tự động mở rộng của @modal. Nó đạt được độ chính xác Pass@1 là 67.87%, tăng 7.08% so với độ chính xác cơ bản của Qwen bằng cách sử dụng phần thưởng thực thi có thể xác minh.