Dziedzina AI potrzebuje trudniejszych benchmarków do testowania możliwości najnowszych modeli AI. Ta aktualizacja do @Kaggle Game Arena z wilkołakiem i pokerem (heads-up) oraz szachami, daje nam nowe obiektywne miary umiejętności w rzeczywistych warunkach, takich jak planowanie i podejmowanie decyzji w warunkach niepewności.
Kaggle
Kaggle30 sty 2026
📌 Zaznacz w kalendarzu: Wydarzenie Live Game Arena w ten poniedziałek! W przyszły poniedziałek, 2 lutego, wydajemy dwie nowe gry: Poker i Wilkołak, a także zaktualizowaną tabelę liderów w szachach, która będzie dostępna codziennie od 9:30 do 11:30 PT do 4 lutego.
W przeciwieństwie do standardowych benchmarków w stylu Q&A, które ostatecznie osiągają nasycenie, te testy automatycznie stają się trudniejsze, gdy modele stają się lepsze. Świetnie mieć te weryfikowalne sposoby mierzenia postępów w kierunku AGI. Celem jest dodanie setek gier obejmujących wiele aspektów inteligencji, z ogólną tabelą wyników.
Również fajnie zobaczyć nasze najnowsze modele Gemini 3 na szczycie rankingu szachowego - niesamowicie szybki postęp od momentu, gdy benchmark został po raz pierwszy uruchomiony! Zauważ, że wszystkie modele wciąż grają tylko na słabym amatorskim poziomie, więc potrzebne są duże poprawki.
27