Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-OSS-120B je tak dobrý
váže Gemini Pro 2.5 zde a je o 98.9% levnější


26. 5. 2025
V návaznosti na naše oznámení srovnávacího testu uvažování založeného na sudoku hodnotíme nejnovější modely, abychom sledovali zlepšení jejich schopností uvažování.
Dnes spouštíme žebříček Sudoku-Bench: 
Nová technická zpráva: 
Nyní můžete sledovat pokrok nových modelů v našem živém žebříčku. Z modelů, které jsme dosud srovnávali: Celkově vede o3 Mini High od OpenAI. Zajímavé je, že Gemini 2.5 Pro si vede lépe na těžších hádankách 6x6! O3 je však jediný model, který řeší některé ze sudoku 9x9, ale pouze 2,9% a pouze vanilkové sudoku.
Zásadní je, že ŽÁDNÝ testovaný model zatím nedokáže pokořit 9x9, což vyžaduje silné a kreativní uvažování. Toto měřítko zůstává velkou výzvou! Pokud se chcete hlouběji ponořit do benchmarku, metodiky a našich zjištění, podívejte se na naši technickou zprávu.
Chcete otestovat model na Sudoku-Bench? Je to jednoduché! Navštivte žebříček. Vyberte si puzzle. Vygenerujeme výzvu (puzzle + pokyny), kterou vložíme do libovolného modelu. Prozkoumejte také ukázkové stopy uvažování z našich testů!

> o3 je jediný model, který řeší některé ze sudoku 9x9
GPT-OSS-120B je také schopen vyřešit 9×9s (1.4%). jediným dalším modelem na Pevalu, který vyřešil všechny 9×9s, je GPT 5
1,83K
Top
Hodnocení
Oblíbené

