gpt-oss-120b è così buono tiene Gemini Pro 2.5 qui ed è il 98,9% più economico
Sakana AI
Sakana AI26 mag 2025
Dopo l'annuncio del nostro benchmark di ragionamento basato sul Sudoku, abbiamo valutato gli ultimi modelli per tenere traccia dei miglioramenti nelle loro capacità di ragionamento. Oggi lanciamo la classifica Sudoku-Bench: Nuova relazione tecnica: Ora puoi monitorare i progressi dei nuovi modelli nella nostra classifica in tempo reale. Tra i modelli che abbiamo confrontato finora: l'o3 Mini High di OpenAI è in testa in generale. È interessante notare che Gemini 2.5 Pro funziona meglio nei puzzle 6x6 più difficili! Tuttavia, o3 è l'unico modello che risolve uno qualsiasi dei Sudoku 9x9, ma solo il 2,9% e solo i Sudoku vaniglia. Fondamentalmente, NESSUN modello testato può ancora conquistare i 9x9 che richiedono un ragionamento forte e creativo. Questo benchmark rimane una grande sfida! Per un'analisi più approfondita del benchmark, della metodologia e dei nostri risultati, consulta il nostro rapporto tecnico. Vuoi testare un modello su Sudoku-Bench? È semplice! Visita la classifica. Scegli un puzzle. Generiamo un prompt (puzzle + istruzioni) da incollare in qualsiasi modello. Esplora anche le tracce di ragionamento dei nostri test!
> o3 è l'unico modello che risolve qualsiasi Sudoku 9x9 gpt-oss-120b è anche in grado di risolvere i 9×9 (1,4%). L'unico altro modello su peval che ha risolto dei 9×9 è GPT 5
1,86K