Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
gpt-oss-120b è così buono
tiene Gemini Pro 2.5 qui ed è il 98,9% più economico


26 mag 2025
Dopo l'annuncio del nostro benchmark di ragionamento basato sul Sudoku, abbiamo valutato gli ultimi modelli per tenere traccia dei miglioramenti nelle loro capacità di ragionamento.
Oggi lanciamo la classifica Sudoku-Bench:
Nuova relazione tecnica:
Ora puoi monitorare i progressi dei nuovi modelli nella nostra classifica in tempo reale. Tra i modelli che abbiamo confrontato finora: l'o3 Mini High di OpenAI è in testa in generale. È interessante notare che Gemini 2.5 Pro funziona meglio nei puzzle 6x6 più difficili! Tuttavia, o3 è l'unico modello che risolve uno qualsiasi dei Sudoku 9x9, ma solo il 2,9% e solo i Sudoku vaniglia.
Fondamentalmente, NESSUN modello testato può ancora conquistare i 9x9 che richiedono un ragionamento forte e creativo. Questo benchmark rimane una grande sfida! Per un'analisi più approfondita del benchmark, della metodologia e dei nostri risultati, consulta il nostro rapporto tecnico.
Vuoi testare un modello su Sudoku-Bench? È semplice! Visita la classifica. Scegli un puzzle. Generiamo un prompt (puzzle + istruzioni) da incollare in qualsiasi modello. Esplora anche le tracce di ragionamento dei nostri test!

> o3 è l'unico modello che risolve qualsiasi Sudoku 9x9
gpt-oss-120b è anche in grado di risolvere i 9×9 (1,4%). L'unico altro modello su peval che ha risolto dei 9×9 è GPT 5
1,86K
Principali
Ranking
Preferiti

