Oggi apriamo il codice sorgente di Nomos 1. Con soli 30 miliardi di parametri, ottiene 87/120 nel Putnam di quest'anno, una delle competizioni matematiche più prestigiose al mondo. Questo punteggio si classificherebbe al #2/3988 nel 2024 e segna il nostro primo passo con @hillclimbai verso la creazione di un matematico AI SOTA.
Nomos 1 ha ottenuto un punteggio di 87/120 con 8 punteggi perfetti, mentre Qwen3-30ba3b-Thinking-2507 ha ottenuto 24/120 quando eseguito nella stessa configurazione e nelle stesse condizioni, indicando che le prestazioni sono in gran parte dovute alla qualità dei dati e al post-addestramento piuttosto che alla configurazione.
Le sottomissioni sono state valutate in modo anonimo da un partecipante umano tra i primi 200 del Putnam, che ha ricevuto sottomissioni anonime. I file esatti inviati ai nostri annotatori umani per la valutazione sono disponibili qui de-anonimizzati: , insieme ai manuali utilizzati per generarli. Abbiamo utilizzato gli stessi limiti di tempo dei concorrenti - 3 ore per ciascuna delle due parti.
Il nostro sistema di ragionamento open source consiste in una fase di risoluzione, in cui i lavoratori tentano di risolvere un problema meno risolto e si auto-valutano, seguita da una fase di finalizzazione, che consolida le sottomissioni per scegliere una sottomissione finale per ogni problema. Abbiamo utilizzato i parametri di campionamento predefiniti di Qwen3 e nessun prompt di sistema.
Rendiamo il nostro modello open-source qui e il nostro ragionamento qui. Questo modello è stato addestrato da @rogershijin su un'infrastruttura costruita da @theemozilla e @dmayhem93 con la consulenza di @nullvaluetensor e la leadership di @teknium e @theemozilla.
88,47K