Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-OSS-120B er så bra
knytter Gemini Pro 2.5 her og er 98.9% billigere


26. mai 2025
Etter vår Sudoku-baserte referansemåling for resonnement, har vi evaluert de nyeste modellene for å spore forbedringer i resonneringsevnene deres.
I dag lanserer vi Sudoku-Bench Leaderboard: 
Ny teknisk rapport: 
Du kan nå spore fremdriften for nye modeller på ledertavlen vår i sanntid. Av modellene vi har benchmarket så langt: OpenAIs o3 Mini High leder totalt sett. Interessant nok gjør Gemini 2.5 Pro det bedre på de vanskeligere 6x6-gåtene! O3 er imidlertid den eneste modellen som løser noen av 9x9 Sudokus, men bare 2.9 % og bare vanilje Sudoku.
Avgjørende er at INGEN testede modeller ennå kan erobre 9x9-er som krever sterke, kreative resonnementer. Denne målestokken er fortsatt en stor utfordring! For et dypere dykk i referansen, metodikken og funnene våre, sjekk ut vår tekniske rapport.
Vil du teste en modell på Sudoku-Bench? Det er enkelt! Gå til ledertavlen. Velg et puslespill. Vi genererer en melding (puslespill + instruksjoner) for å lime inn i en hvilken som helst modell. Utforsk eksempler på resonnementspor fra testene våre også!

> o3 er den eneste modellen som løser noen av 9x9 Sudokus
GPT-OSS-120B er også i stand til å løse 9×9s (1.4%). den eneste andre modellen på peval som løste noen 9×9-er er GPT 5
1,84K
Topp
Rangering
Favoritter

