Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[Actualización sobre @SentientAGI banco SPIN]
Resumí de qué se trata SPIN-Bench.
Descripción general de SPIN-Bench
SPIN-Bench es un benchmark que evalúa las capacidades de planificación estratégica, interacción y negociación de grandes modelos de lenguaje (LLM), midiendo su inteligencia social en un entorno multiagente.
Antecedentes y propósito
Desarrollador: Sentient AGI (@SentientAGI), Princeton, UT Austin colaboración
Presentación: 2025 COLM, arXiv Paper (2025.03)
Propósito: Examinar las limitaciones de la inteligencia social de los LLM, incluida la planificación a largo plazo, la negociación bajo incertidumbre y el razonamiento intencional.
Características principales
Composición: Benchmark (Desafíos y criterios) + Arena (Simulación)
Moderadores: Espacio de acción, complejidad de estado, número de agentes
Métricas: tasa de éxito, optimización de la planificación, eficiencia de la muestra, resultados del ajuste
Dominios de evaluación
Planificación PDDL - Planificación a largo plazo, seguimiento de restricciones
Juegos de mesa competitivos: predicciones adversas, respuestas trimestrales de ancho
Juegos de cartas cooperativos: observabilidad parcial, coordinación de equipos
Negociación multiagente: formación de alianzas, detección de faroles
Rendimiento de LLM
Fortalezas: razonamiento simple, planificación a corto plazo
Debilidades: razonamiento de varios pasos, manejo estatal a gran escala, coordinación social
Brecha de rendimiento sobre los solucionadores humanos y profesionales
Entonces ...

Populares
Ranking
Favoritas
