Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Der Bereich der KI benötigt härtere Benchmarks, um die Fähigkeiten der neuesten KI-Modelle zu testen. Dieses Update für die @Kaggle Game Arena mit Werwolf und Poker (Heads-up) sowie Schach bietet uns neue objektive Messungen von Fähigkeiten in der realen Welt wie Planung und Entscheidungsfindung unter Unsicherheit.

30. Jan. 2026
📌 Markiere deinen Kalender: Live Game Arena Event diesen Montag!
Wir veröffentlichen zwei neue Spiele, Poker und Werwolf, zusammen mit einer aktualisierten Schach-Bestenliste am nächsten Montag, den 2. Februar, täglich von 9:30 Uhr PT bis 11:30 Uhr PT bis zum 4. Februar.
Im Gegensatz zu standardmäßigen Q&A-Benchmarks, die schließlich gesättigt sind, werden diese Tests automatisch schwieriger, je besser die Modelle werden. Es ist großartig, diese überprüfbaren Möglichkeiten zu haben, um den Fortschritt in Richtung AGI zu messen. Ziel ist es, Hunderte von Spielen hinzuzufügen, die viele Aspekte der Intelligenz abdecken, mit einer Gesamtwertung.
Es ist auch cool zu sehen, dass unsere neuesten Gemini 3-Modelle an der Spitze der Schach-Leaderboard stehen - unglaublich schnelle Verbesserungen seit dem ersten Start des Benchmarks! Beachten Sie, dass alle Modelle weiterhin nur auf schwachem Amateur-Niveau spielen, sodass noch viel Verbesserung nötig ist.

23
Top
Ranking
Favoriten
