[Aktualizace na @SentientAGI SPIN-Bench] Shrnul jsem, o čem SPIN-Bench je. Přehled SPIN-Bench SPIN-Bench je benchmark, který hodnotí schopnosti strategického plánování, interakce a vyjednávání velkých jazykových modelů (LLM) a měří jejich sociální inteligenci v multiagentním prostředí. Pozadí a účel Vývojář: Spolupráce Sentient AGI (@SentientAGI), Princeton, UT Austin Prezentace: 2025 COLM, článek arXiv (2025.03) Účel: Prozkoumat omezení sociální inteligence LLM, včetně dlouhodobého plánování, vyjednávání v nejistotě a záměrného uvažování. Klíčové vlastnosti Složení: Benchmark (výzvy a kritéria) + Arena (simulace) Moderátoři: Akční prostor, složitost stavu, počet agentů Metriky: Úspěšnost, optimalita plánování, efektivita vzorku, výsledky úprav Zkušební domény PDDL plánování - dlouhodobé plánování, sledování omezení Konkurenční deskové hry - Nepříznivé předpovědi, čtvrtletní šířky odezvy Kooperativní karetní hry - částečná pozorovatelnost, koordinace týmu Multi-agentní vyjednávání - vytváření aliancí, detekce blafování LLM výkon Silné stránky: Jednoduché uvažování, krátkodobé plánování Slabé stránky: Vícestupňové uvažování, rozsáhlé řešení státu, sociální koordinace Výkonnostní rozdíl oproti lidským a profesionálním řešitelům Potom ...