Le domaine de l'IA a besoin de critères plus stricts pour tester les capacités des derniers modèles d'IA. Cette mise à jour de @Kaggle Game Arena avec le loup-garou et le poker (tête-à-tête) ainsi que les échecs, nous offre de nouvelles mesures objectives des compétences du monde réel telles que la planification et la prise de décision en situation d'incertitude.
Kaggle
Kaggle30 janv. 2026
📌 Marquez votre calendrier : Événement Live Game Arena ce lundi ! Nous lançons deux nouveaux jeux, Poker et Loup-Garou, ainsi qu'un classement d'échecs mis à jour lundi prochain, le 2 février, fonctionnant tous les jours de 9h30 PT à 11h30 PT jusqu'au 4 février.
Contrairement aux benchmarks standard de type Q&A qui finissent par se saturer, ces tests deviennent automatiquement plus difficiles à mesure que les modèles s'améliorent. C'est formidable d'avoir ces moyens vérifiables de mesurer les progrès vers l'AGI. L'objectif est d'ajouter des centaines de jeux couvrant de nombreux aspects de l'intelligence, avec un classement général.
C'est aussi génial de voir nos derniers modèles Gemini 3 en tête du classement d'échecs - une amélioration incroyablement rapide depuis le lancement du benchmark ! Notez que tous les modèles ne jouent toujours qu'à un niveau amateur faible, donc beaucoup d'améliorations sont nécessaires.
28