[Uppdatering om @SentientAGI SPIN-Bench] Jag sammanfattade vad SPIN-Bench handlar om. SPIN-bänk Översikt SPIN-Bench är ett riktmärke som utvärderar den strategiska planeringen, interaktionen och förhandlingsförmågan hos stora språkmodeller (LLM) och mäter deras sociala intelligens i en miljö med flera agenter. Bakgrund och syfte Utvecklare: Sentient AGI (@SentientAGI), Princeton, UT Austin samarbete Presentation: 2025 COLM, arXiv Paper (2025.03) Syfte: Undersöka begränsningarna i LLM:s sociala intelligens, inklusive långsiktig planering, förhandling under osäkerhet och avsiktligt resonemang. Viktiga funktioner Sammansättning: Benchmark (Utmaningar och Kriterier) + Arena (Simulering) Moderatorer: Åtgärdsutrymme, tillståndskomplexitet, antal agenter Mätvärden: Framgångsfrekvens, planeringsoptimalitet, proveffektivitet, justeringsresultat Utvärdering domäner PDDL-planering - Långsiktig planering, begränsningsspårning Konkurrenskraftiga brädspel - Kontradiktoriska förutsägelser, kvartalsvisa breddsvar Co-op kortspel - Delvis observerbarhet, lagkoordination Multi-Agent Negotiation - Att bilda allianser, upptäcka bluffar LLM-prestanda Styrkor: Enkelt resonemang, kortsiktig planering Svagheter: Flerstegsresonemang, storskalig statlig hantering, social samordning Prestandagap jämfört med mänskliga och professionella lösare Då ...