Astăzi facem open source Nomos 1. La doar 30B parametri, obține un scor de 87/120 la Putnam din acest an, una dintre cele mai prestigioase competiții de matematică din lume. Acest scor s-ar clasa #2/3988 în 2024 și marchează primul nostru pas cu @hillclimbai spre crearea unui matematician AI SOTA.
Nomos 1 a obținut un scor de 87/120 cu 8 scoruri perfecte, în timp ce Qwen3-30ba3b-Thinking-2507 a obținut scoruri de 24/120 când au fost folosite în același ham și în aceleași condiții, indicând că performanța se datorează în mare parte calității post-antrenament și a datelor, nu de harness.
Înscrierile erau evaluate orb de un concurent uman din top 200 Putnam, care primea înscrieri anonime. Fișierele exacte trimise adnotatorilor noștri umani pentru notare sunt disponibile aici de-anonimizate: , împreună cu runbook-urile folosite pentru generarea lor Am folosit aceleași limite de timp ca concurenții – 3 ore pentru fiecare dintre cele două părți.
Sistemul nostru de raționament open source constă într-o fază de rezolvare, în care lucrătorii încearcă o problemă cel puțin rezolvată și se autoevaluează, urmată de o fază de finalizare, care consolidează trimiterile pentru a alege o finalizare pentru fiecare problemă. Am folosit parametrii de eșantionare impliciti ai Qwen3 și nu am avut un prompt de sistem.
Facem open source modelul nostru aici și folosim raționamentul aici. Acest model a fost antrenat de @rogershijin pe infrastructură construită de @theemozilla și @dmayhem93 cu consiliere din partea @nullvaluetensor și conducere din @teknium și @theemozilla.
118,11K