Oblast AI potřebuje náročnější benchmarky pro testování schopností nejnovějších AI modelů. Tato aktualizace @Kaggle Game Arena s vlkodlakem a pokerem (heads-up) plus šachy nám přináší nové objektivní ukazatele reálných dovedností, jako je plánování a rozhodování v nejistotě.
Kaggle
Kaggle30. 1. 2026
📌 Zapište si do kalendáře: Živá akce v aréně tento pondělí! Příští pondělí 2. února vydáváme dvě nové hry, Poker a Werewolf, spolu s aktualizovaným šachovým žebříčkem, který bude běžet denně od 9:30 do 11:30 PT až do 4. února.
Na rozdíl od standardních Q&A benchmarků, které se nakonec nasytí, tyto testy automaticky ztěžují, jak se modely zlepšují. Je skvělé mít tyto ověřitelné způsoby, jak měřit pokrok směrem k AGI. Cílem je přidat stovky her pokrývajících různé aspekty inteligence, s celkovým žebříčkem
Je také skvělé vidět naše nejnovější modely Gemini 3 na vrcholu šachového žebříčku – neuvěřitelně rychlé zlepšení oproti tomu, když benchmark poprvé vyšel! Všimněte si, že všechny modely stále hrají jen na slabé amatérské úrovni, takže je potřeba hodně zlepšení.
21