GPT-OSS-120B er så bra knytter Gemini Pro 2.5 her og er 98.9% billigere
Sakana AI
Sakana AI26. mai 2025
Etter vår Sudoku-baserte referansemåling for resonnement, har vi evaluert de nyeste modellene for å spore forbedringer i resonneringsevnene deres. I dag lanserer vi Sudoku-Bench Leaderboard: Ny teknisk rapport: Du kan nå spore fremdriften for nye modeller på ledertavlen vår i sanntid. Av modellene vi har benchmarket så langt: OpenAIs o3 Mini High leder totalt sett. Interessant nok gjør Gemini 2.5 Pro det bedre på de vanskeligere 6x6-gåtene! O3 er imidlertid den eneste modellen som løser noen av 9x9 Sudokus, men bare 2.9 % og bare vanilje Sudoku. Avgjørende er at INGEN testede modeller ennå kan erobre 9x9-er som krever sterke, kreative resonnementer. Denne målestokken er fortsatt en stor utfordring! For et dypere dykk i referansen, metodikken og funnene våre, sjekk ut vår tekniske rapport. Vil du teste en modell på Sudoku-Bench? Det er enkelt! Gå til ledertavlen. Velg et puslespill. Vi genererer en melding (puslespill + instruksjoner) for å lime inn i en hvilken som helst modell. Utforsk eksempler på resonnementspor fra testene våre også!
> o3 er den eneste modellen som løser noen av 9x9 Sudokus GPT-OSS-120B er også i stand til å løse 9×9s (1.4%). den eneste andre modellen på peval som løste noen 9×9-er er GPT 5
1,84K