[@SentientAGI Mise à jour sur SPIN-Bench] Voici un résumé de ce qu'est SPIN-Bench. Aperçu de SPIN-Bench SPIN-Bench est un benchmark qui évalue les capacités de planification stratégique, d'interaction et de négociation des grands modèles de langage (LLM), mesurant l'intelligence sociale dans un environnement multi-agents. Contexte et objectif Développement : Sentient AGI(@SentientAGI), collaboration avec Princeton, UT Austin Présentation : COLM 2025, article arXiv (2025.03) Objectif : Vérifier les limites de l'intelligence sociale des LLM en matière de planification à long terme, de négociation sous incertitude, d'inférence d'intention, etc. Caractéristiques principales Composition : Benchmark (tâches et critères) + Arène (simulation) Éléments modulables : Espace d'action, complexité de l'état, nombre d'agents Indicateurs : Taux de réussite, optimalité des plans, efficacité des échantillons, résultats de coordination Domaines d'évaluation Planification PDDL - Planification à long terme, suivi des contraintes Jeux de société compétitifs - Prédictions adversariales, réponses aux branches Jeux de cartes coopératifs - Observabilité partielle, coordination d'équipe Négociation multi-agents - Formation d'alliances, détection de bluff Performance des LLM Forces : Raisonnement simple, planification à court terme Faiblesses : Raisonnement multi-étapes, traitement d'états à grande échelle, coordination sociale Écart de performance par rapport aux solveurs humains et professionnels Alors, quel est le rôle de ...