Der Bereich der KI benötigt härtere Benchmarks, um die Fähigkeiten der neuesten KI-Modelle zu testen. Dieses Update für die @Kaggle Game Arena mit Werwolf und Poker (Heads-up) sowie Schach bietet uns neue objektive Messungen von Fähigkeiten in der realen Welt wie Planung und Entscheidungsfindung unter Unsicherheit.
Kaggle
Kaggle30. Jan. 2026
📌 Markiere deinen Kalender: Live Game Arena Event diesen Montag! Wir veröffentlichen zwei neue Spiele, Poker und Werwolf, zusammen mit einer aktualisierten Schach-Bestenliste am nächsten Montag, den 2. Februar, täglich von 9:30 Uhr PT bis 11:30 Uhr PT bis zum 4. Februar.
Im Gegensatz zu standardmäßigen Q&A-Benchmarks, die schließlich gesättigt sind, werden diese Tests automatisch schwieriger, je besser die Modelle werden. Es ist großartig, diese überprüfbaren Möglichkeiten zu haben, um den Fortschritt in Richtung AGI zu messen. Ziel ist es, Hunderte von Spielen hinzuzufügen, die viele Aspekte der Intelligenz abdecken, mit einer Gesamtwertung.
Es ist auch cool zu sehen, dass unsere neuesten Gemini 3-Modelle an der Spitze der Schach-Leaderboard stehen - unglaublich schnelle Verbesserungen seit dem ersten Start des Benchmarks! Beachten Sie, dass alle Modelle weiterhin nur auf schwachem Amateur-Niveau spielen, sodass noch viel Verbesserung nötig ist.
23