Domeniul AI are nevoie de repere mai dificile pentru a testa capabilitățile celor mai noi modele de AI. Această actualizare a @Kaggle Game Arena, cu vârcolaci și poker (heads-up) plus șah, ne oferă noi măsuri obiective ale abilităților din lumea reală, cum ar fi planificarea și luarea deciziilor în condiții de incertitudine.
Kaggle
Kaggle30 ian. 2026
📌 Notează-ți calendarul: eveniment live game arena luni! Lansăm două jocuri noi, Poker și Werewolf, împreună cu un clasament actualizat la șah luni, 2 februarie, care va rula zilnic de la 9:30 AM PT până la 11:30 AM PT până pe 4 februarie.
Spre deosebire de benchmark-urile standard de tip Q&A care în cele din urmă se saturează, aceste teste devin automat mai dificile pe măsură ce modelele devin mai bune. E grozav să avem aceste metode verificabile de a măsura progresul către AGI. Scopul este să adaug sute de jocuri care acoperă multe aspecte ale inteligenței, cu un clasament general
De asemenea, e grozav să vedem cele mai noi modele Gemini 3 în fruntea clasamentului de șah – o îmbunătățire incredibil de rapidă față de când a fost lansat benchmark-ul! Rețineți că toate modelele încă joacă doar la nivel amator slab, deci este nevoie de multe îmbunătățiri.
25