[Atualização sobre @SentientAGI SPIN-Bench] Eu resumi o que é o SPIN-Bench. Visão geral do SPIN-Bench O SPIN-Bench é um benchmark que avalia as habilidades de planejamento estratégico, interação e negociação de grandes modelos de linguagem (LLMs), medindo sua inteligência social em um ambiente multiagente. Antecedentes e Propósito Desenvolvedor: Sentient AGI (@SentientAGI), Princeton, UT Austin colaboração Apresentação: 2025 COLM, arXiv Paper (2025.03) Objetivo: Examinar as limitações da inteligência social dos LLMs, incluindo planejamento de longo prazo, negociação sob incerteza e raciocínio intencional. Características principais Composição: Benchmark (Desafios e Critérios) + Arena (Simulação) Moderadores: Espaço de ação, complexidade do estado, número de agentes Métricas: taxa de sucesso, otimização de planejamento, eficiência da amostra, resultados de ajuste Domínios de avaliação Planejamento PDDL - Planejamento a longo prazo, controle de restrições Jogos de tabuleiro competitivos - previsões contraditórias, respostas trimestrais de largura Jogos de cartas cooperativos - observabilidade parcial, coordenação de equipe Negociação Multi-Agente - Formando Alianças, Detectando Blefes Desempenho LLM Pontos fortes: raciocínio simples, planejamento de curto prazo Pontos fracos: raciocínio em várias etapas, tratamento do Estado em larga escala, coordenação social Lacuna de desempenho em relação aos solucionadores humanos e profissionais Então ...