Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dziedzina AI potrzebuje trudniejszych benchmarków do testowania możliwości najnowszych modeli AI. Ta aktualizacja do @Kaggle Game Arena z wilkołakiem i pokerem (heads-up) oraz szachami, daje nam nowe obiektywne miary umiejętności w rzeczywistych warunkach, takich jak planowanie i podejmowanie decyzji w warunkach niepewności.

30 sty 2026
📌 Zaznacz w kalendarzu: Wydarzenie Live Game Arena w ten poniedziałek!
W przyszły poniedziałek, 2 lutego, wydajemy dwie nowe gry: Poker i Wilkołak, a także zaktualizowaną tabelę liderów w szachach, która będzie dostępna codziennie od 9:30 do 11:30 PT do 4 lutego.
W przeciwieństwie do standardowych benchmarków w stylu Q&A, które ostatecznie osiągają nasycenie, te testy automatycznie stają się trudniejsze, gdy modele stają się lepsze. Świetnie mieć te weryfikowalne sposoby mierzenia postępów w kierunku AGI. Celem jest dodanie setek gier obejmujących wiele aspektów inteligencji, z ogólną tabelą wyników.
Również fajnie zobaczyć nasze najnowsze modele Gemini 3 na szczycie rankingu szachowego - niesamowicie szybki postęp od momentu, gdy benchmark został po raz pierwszy uruchomiony! Zauważ, że wszystkie modele wciąż grają tylko na słabym amatorskim poziomie, więc potrzebne są duże poprawki.

27
Najlepsze
Ranking
Ulubione
