Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[Atualização sobre @SentientAGI SPIN-Bench]
Eu resumi o que é o SPIN-Bench.
Visão geral do SPIN-Bench
O SPIN-Bench é um benchmark que avalia as habilidades de planejamento estratégico, interação e negociação de grandes modelos de linguagem (LLMs), medindo sua inteligência social em um ambiente multiagente.
Antecedentes e Propósito
Desenvolvedor: Sentient AGI (@SentientAGI), Princeton, UT Austin colaboração
Apresentação: 2025 COLM, arXiv Paper (2025.03)
Objetivo: Examinar as limitações da inteligência social dos LLMs, incluindo planejamento de longo prazo, negociação sob incerteza e raciocínio intencional.
Características principais
Composição: Benchmark (Desafios e Critérios) + Arena (Simulação)
Moderadores: Espaço de ação, complexidade do estado, número de agentes
Métricas: taxa de sucesso, otimização de planejamento, eficiência da amostra, resultados de ajuste
Domínios de avaliação
Planejamento PDDL - Planejamento a longo prazo, controle de restrições
Jogos de tabuleiro competitivos - previsões contraditórias, respostas trimestrais de largura
Jogos de cartas cooperativos - observabilidade parcial, coordenação de equipe
Negociação Multi-Agente - Formando Alianças, Detectando Blefes
Desempenho LLM
Pontos fortes: raciocínio simples, planejamento de curto prazo
Pontos fracos: raciocínio em várias etapas, tratamento do Estado em larga escala, coordenação social
Lacuna de desempenho em relação aos solucionadores humanos e profissionais
Então ...

Melhores
Classificação
Favoritos
