Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oggi apriamo il codice sorgente di Nomos 1. Con soli 30 miliardi di parametri, ottiene 87/120 nel Putnam di quest'anno, una delle competizioni matematiche più prestigiose al mondo.
Questo punteggio si classificherebbe al #2/3988 nel 2024 e segna il nostro primo passo con @hillclimbai verso la creazione di un matematico AI SOTA.

Nomos 1 ha ottenuto un punteggio di 87/120 con 8 punteggi perfetti, mentre Qwen3-30ba3b-Thinking-2507 ha ottenuto 24/120 quando eseguito nella stessa configurazione e nelle stesse condizioni, indicando che le prestazioni sono in gran parte dovute alla qualità dei dati e al post-addestramento piuttosto che alla configurazione.

Le sottomissioni sono state valutate in modo anonimo da un partecipante umano tra i primi 200 del Putnam, che ha ricevuto sottomissioni anonime.
I file esatti inviati ai nostri annotatori umani per la valutazione sono disponibili qui de-anonimizzati: , insieme ai manuali utilizzati per generarli.
Abbiamo utilizzato gli stessi limiti di tempo dei concorrenti - 3 ore per ciascuna delle due parti.
Il nostro sistema di ragionamento open source consiste in una fase di risoluzione, in cui i lavoratori tentano di risolvere un problema meno risolto e si auto-valutano, seguita da una fase di finalizzazione, che consolida le sottomissioni per scegliere una sottomissione finale per ogni problema. Abbiamo utilizzato i parametri di campionamento predefiniti di Qwen3 e nessun prompt di sistema.

Rendiamo il nostro modello open-source qui e il nostro ragionamento qui.
Questo modello è stato addestrato da @rogershijin su un'infrastruttura costruita da @theemozilla e @dmayhem93 con la consulenza di @nullvaluetensor e la leadership di @teknium e @theemozilla.
88,47K
Principali
Ranking
Preferiti

