DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Le domaine de l'IA a besoin de critères plus stricts pour tester les capacités des derniers modèles d'IA. Cette mise à jour de @Kaggle Game Arena avec le loup-garou et le poker (tête-à-tête) ainsi que les échecs, nous offre de nouvelles mesures objectives des compétences du monde réel telles que la planification et la prise de décision en situation d'incertitude.

Contrairement aux benchmarks standard de type Q&A qui finissent par se saturer, ces tests deviennent automatiquement plus difficiles à mesure que les modèles s'améliorent. C'est formidable d'avoir ces moyens vérifiables de mesurer les progrès vers l'AGI. L'objectif est d'ajouter des centaines de jeux couvrant de nombreux aspects de l'intelligence, avec un classement général.

C'est aussi génial de voir nos derniers modèles Gemini 3 en tête du classement d'échecs - une amélioration incroyablement rapide depuis le lancement du benchmark ! Notez que tous les modèles ne jouent toujours qu'à un niveau amateur faible, donc beaucoup d'améliorations sont nécessaires.

28

Meilleurs

Classement

Favoris