GPT-OSS-120B je tak dobrý váže Gemini Pro 2.5 zde a je o 98.9% levnější
Sakana AI
Sakana AI26. 5. 2025
V návaznosti na naše oznámení srovnávacího testu uvažování založeného na sudoku hodnotíme nejnovější modely, abychom sledovali zlepšení jejich schopností uvažování. Dnes spouštíme žebříček Sudoku-Bench: Nová technická zpráva: Nyní můžete sledovat pokrok nových modelů v našem živém žebříčku. Z modelů, které jsme dosud srovnávali: Celkově vede o3 Mini High od OpenAI. Zajímavé je, že Gemini 2.5 Pro si vede lépe na těžších hádankách 6x6! O3 je však jediný model, který řeší některé ze sudoku 9x9, ale pouze 2,9% a pouze vanilkové sudoku. Zásadní je, že ŽÁDNÝ testovaný model zatím nedokáže pokořit 9x9, což vyžaduje silné a kreativní uvažování. Toto měřítko zůstává velkou výzvou! Pokud se chcete hlouběji ponořit do benchmarku, metodiky a našich zjištění, podívejte se na naši technickou zprávu. Chcete otestovat model na Sudoku-Bench? Je to jednoduché! Navštivte žebříček. Vyberte si puzzle. Vygenerujeme výzvu (puzzle + pokyny), kterou vložíme do libovolného modelu. Prozkoumejte také ukázkové stopy uvažování z našich testů!
> o3 je jediný model, který řeší některé ze sudoku 9x9 GPT-OSS-120B je také schopen vyřešit 9×9s (1.4%). jediným dalším modelem na Pevalu, který vyřešil všechny 9×9s, je GPT 5
1,83K