[@SentientAGI Actualización sobre SPIN-Bench] He resumido de qué trata SPIN-Bench. Resumen de SPIN-Bench SPIN-Bench es un benchmark que evalúa la planificación estratégica, la interacción y la capacidad de negociación de los modelos de lenguaje de gran tamaño (LLM), midiendo la inteligencia social en entornos de múltiples agentes. Antecedentes y objetivos Desarrollo: Sentient AGI(@SentientAGI), colaboración de Princeton y UT Austin Presentación: COLM 2025, artículo en arXiv (2025.03) Objetivo: Examinar los límites de la inteligencia social de los LLM en planificación a largo plazo, negociación bajo incertidumbre, inferencia de intenciones, etc. Características principales Composición: Benchmark (tareas y criterios) + Arena (simulación) Elementos ajustables: Espacio de acción, complejidad del estado, número de agentes Indicadores: Tasa de éxito, optimalidad de la planificación, eficiencia de muestras, resultados de coordinación Dominios de evaluación Planificación PDDL - Planificación a largo plazo, seguimiento de restricciones Juegos de mesa competitivos - Predicción adversarial, respuesta a bifurcaciones Juegos de cartas cooperativos - Observabilidad parcial, coordinación en equipo Negociación multiagente - Formación de coaliciones, detección de faroles Rendimiento de LLM Fortalezas: Inferencia simple, planificación a corto plazo Debilidades: Inferencia de múltiples pasos, procesamiento de estados a gran escala, coordinación social Brecha de rendimiento en comparación con humanos y solucionadores expertos Entonces, ...