AI-området behöver hårdare benchmarks för att testa kapaciteten hos de senaste AI-modellerna. Denna uppdatering av @Kaggle Game Arena med varulv och poker (heads-up) plus schack ger oss nya objektiva mått på verkliga färdigheter som planering och beslutsfattande under osäkerhet.
Kaggle
Kaggle30 jan. 2026
📌 Skriv in i kalendern: Live Game Arena-evenemang nu på måndag! Vi släpper två nya spel, Poker och Werewolf, tillsammans med en uppdaterad schacktopplista nästa måndag den 2 februari, som pågår dagligen från 9:30 PT till 11:30 PT fram till den 4 februari.
Till skillnad från standardbenchmarks i Q&A-stil som så småningom mättas, blir dessa tester automatiskt svårare ju bättre modellerna är. Fantastiskt att ha dessa verifierbara sätt att mäta framsteg mot AGI. Målet är att lägga till hundratals spel som täcker många aspekter av intelligens, med en övergripande topplista
Också kul att se våra senaste Gemini 3-modeller i toppen av schacktopplistan – en otroligt snabb förbättring jämfört med när benchmarken först lanserades! Observera att alla modeller fortfarande bara spelar på svag amatörnivå, så mycket förbättring behövs.
38