AI-feltet trenger hardere benchmarks for å teste kapasiteten til de nyeste AI-modellene. Denne oppdateringen til @Kaggle Game Arena med varulv og poker (heads-up) pluss sjakk, gir oss nye objektive mål på virkelige ferdigheter som planlegging og beslutningstaking under usikkerhet.
Kaggle
Kaggle30. jan. 2026
📌 Sett av i kalenderen: Live Game Arena-arrangement denne mandagen! Vi lanserer to nye spill, Poker og Werewolf, sammen med en oppdatert sjakkledertavle neste mandag 2. februar, som går daglig fra kl. 09:30 PT til 11:30 PT frem til 4. februar.
I motsetning til standard Q&A-stil benchmarks som etter hvert mettes, blir disse testene automatisk vanskeligere etter hvert som modellene blir bedre. Flott å ha disse verifiserbare måtene å måle fremgang mot AGI på. Målet er å legge til hundrevis av spill som dekker mange aspekter av intelligens, med en overordnet ledertavle
Det er også kult å se våre nyeste Gemini 3-modeller på toppen av sjakk-ledertavlen – en utrolig rask forbedring fra da benchmarken først ble lansert! Merk at alle modellene fortsatt bare spiller på svakt amatørnivå, så det trengs mye forbedring.
35