Hari ini kami membuka sumber Nomos 1. Dengan hanya 30B parameter, ia mendapat skor 87/120 pada Putnam tahun ini, salah satu kompetisi matematika paling bergengsi di dunia. Skor ini akan menempati peringkat #2/3988 pada tahun 2024 dan menandai langkah pertama kami dengan @hillclimbai untuk menciptakan matematikawan SOTA AI.
Nomos 1 mencapai 87/120 dengan 8 skor sempurna, sedangkan Qwen3-30ba3b-Thinking-2507 mencetak skor 24/120 saat dijalankan dengan harness yang sama dalam kondisi yang sama, menunjukkan bahwa kinerja sebagian besar disebabkan oleh pasca-pelatihan dan kualitas data daripada harness.
Kiriman dinilai secara buta oleh kontestan 200 teratas Putnam manusia yang diberi kiriman anonim. File persis yang dikirim ke anotasi manusia kami untuk penilaian tersedia di sini tanpa anonima: , bersama dengan runbook yang digunakan untuk menghasilkannya Kami menggunakan batas waktu yang sama dengan pesaing - 3 jam untuk masing-masing dari dua bagian.
Sistem penalaran open source kami terdiri dari fase pemecahan, di mana pekerja mencoba masalah yang paling tidak terpecahkan dan menilai sendiri, diikuti dengan fase finalisasi, yang mengkonsolidasikan pengajuan untuk memilih pengajuan akhir untuk setiap masalah. Kami menggunakan parameter pengambilan sampel default Qwen3 dan tidak ada prompt sistem.
Kami membuka sumber model kami di sini dan harness penalaran kami di sini . Model ini dilatih oleh @rogershijin pada infra yang dibangun oleh @theemozilla dan @dmayhem93 dengan nasihat dari @nullvaluetensor dan kepemimpinan dari @teknium dan @theemozilla.
88,47K