Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[@SentientAGI Actualización sobre SPIN-Bench]
He resumido de qué trata SPIN-Bench.
Resumen de SPIN-Bench
SPIN-Bench es un benchmark que evalúa la planificación estratégica, la interacción y la capacidad de negociación de los modelos de lenguaje de gran tamaño (LLM), midiendo la inteligencia social en entornos de múltiples agentes.
Antecedentes y objetivos
Desarrollo: Sentient AGI(@SentientAGI), colaboración de Princeton y UT Austin
Presentación: COLM 2025, artículo en arXiv (2025.03)
Objetivo: Examinar los límites de la inteligencia social de los LLM en planificación a largo plazo, negociación bajo incertidumbre, inferencia de intenciones, etc.
Características principales
Composición: Benchmark (tareas y criterios) + Arena (simulación)
Elementos ajustables: Espacio de acción, complejidad del estado, número de agentes
Indicadores: Tasa de éxito, optimalidad de la planificación, eficiencia de muestras, resultados de coordinación
Dominios de evaluación
Planificación PDDL - Planificación a largo plazo, seguimiento de restricciones
Juegos de mesa competitivos - Predicción adversarial, respuesta a bifurcaciones
Juegos de cartas cooperativos - Observabilidad parcial, coordinación en equipo
Negociación multiagente - Formación de coaliciones, detección de faroles
Rendimiento de LLM
Fortalezas: Inferencia simple, planificación a corto plazo
Debilidades: Inferencia de múltiples pasos, procesamiento de estados a gran escala, coordinación social
Brecha de rendimiento en comparación con humanos y solucionadores expertos
Entonces, ...

Parte superior
Clasificación
Favoritos
