Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[@SentientAGI Mise à jour sur SPIN-Bench]
Voici un résumé de ce qu'est SPIN-Bench.
Aperçu de SPIN-Bench
SPIN-Bench est un benchmark qui évalue les capacités de planification stratégique, d'interaction et de négociation des grands modèles de langage (LLM), mesurant l'intelligence sociale dans un environnement multi-agents.
Contexte et objectif
Développement : Sentient AGI(@SentientAGI), collaboration avec Princeton, UT Austin
Présentation : COLM 2025, article arXiv (2025.03)
Objectif : Vérifier les limites de l'intelligence sociale des LLM en matière de planification à long terme, de négociation sous incertitude, d'inférence d'intention, etc.
Caractéristiques principales
Composition : Benchmark (tâches et critères) + Arène (simulation)
Éléments modulables : Espace d'action, complexité de l'état, nombre d'agents
Indicateurs : Taux de réussite, optimalité des plans, efficacité des échantillons, résultats de coordination
Domaines d'évaluation
Planification PDDL - Planification à long terme, suivi des contraintes
Jeux de société compétitifs - Prédictions adversariales, réponses aux branches
Jeux de cartes coopératifs - Observabilité partielle, coordination d'équipe
Négociation multi-agents - Formation d'alliances, détection de bluff
Performance des LLM
Forces : Raisonnement simple, planification à court terme
Faiblesses : Raisonnement multi-étapes, traitement d'états à grande échelle, coordination sociale
Écart de performance par rapport aux solveurs humains et professionnels
Alors, quel est le rôle de ...

Meilleurs
Classement
Favoris
