Nejtěžší středoškolská zkouška z matematiky na světě, 6 problémů 9 hodin IMO 2025, byla tento týden. Modely umělé inteligence si vedly špatně. Gemini 2.5 Pro dosáhl nejvyššího skóre, pouhých 13/42, za 431.97 $, v nejlepším výsledku 32 eval. Bronzová hranice byla 19. Dlouhá cesta k tomu, aby umělá inteligence vyřešila těžkou matematiku.
Zde je krásnější vizualizace výkonu modelu v MathAreně
P6 byl rozhodně nejtěžší a nejzajímavější problém. Většina lidí to dokáže pochopit, ale jen velmi málo z nich to dokáže vyřešit. Všechny modely dosáhly skóre 0/7.
Malá oprava:
Alexander Wei
Alexander Wei19. 7. 15:50
1/N S potěšením se s vámi podělím o to, že naše nejnovější @OpenAI experimentální uvažování LLM dosáhlo dlouhodobé velké výzvy v oblasti umělé inteligence: výkonu na úrovni zlaté medaile na nejprestižnější matematické soutěži na světě – Mezinárodní matematické olympiádě (IMO).
167,89K