[Actualización sobre @SentientAGI banco SPIN] Resumí de qué se trata SPIN-Bench. Descripción general de SPIN-Bench SPIN-Bench es un benchmark que evalúa las capacidades de planificación estratégica, interacción y negociación de grandes modelos de lenguaje (LLM), midiendo su inteligencia social en un entorno multiagente. Antecedentes y propósito Desarrollador: Sentient AGI (@SentientAGI), Princeton, UT Austin colaboración Presentación: 2025 COLM, arXiv Paper (2025.03) Propósito: Examinar las limitaciones de la inteligencia social de los LLM, incluida la planificación a largo plazo, la negociación bajo incertidumbre y el razonamiento intencional. Características principales Composición: Benchmark (Desafíos y criterios) + Arena (Simulación) Moderadores: Espacio de acción, complejidad de estado, número de agentes Métricas: tasa de éxito, optimización de la planificación, eficiencia de la muestra, resultados del ajuste Dominios de evaluación Planificación PDDL - Planificación a largo plazo, seguimiento de restricciones Juegos de mesa competitivos: predicciones adversas, respuestas trimestrales de ancho Juegos de cartas cooperativos: observabilidad parcial, coordinación de equipos Negociación multiagente: formación de alianzas, detección de faroles Rendimiento de LLM Fortalezas: razonamiento simple, planificación a corto plazo Debilidades: razonamiento de varios pasos, manejo estatal a gran escala, coordinación social Brecha de rendimiento sobre los solucionadores humanos y profesionales Entonces ...