[@SentientAGI Aktualizacja dotycząca SPIN-Bench] Podsumowałem, o co chodzi w SPIN-Bench. Przegląd SPIN-Bench SPIN-Bench to benchmark oceniający zdolności strategicznego planowania, interakcji i negocjacji dużych modeli językowych (LLM), mierzący inteligencję społeczną w środowisku wieloagentowym. Tło i cel Rozwój: Sentient AGI(@SentientAGI), współpraca z Princeton, UT Austin Prezentacja: COLM 2025, artykuł arXiv (2025.03) Cel: Sprawdzenie ograniczeń inteligencji społecznej LLM w zakresie długoterminowego planowania, negocjacji w warunkach niepewności, wnioskowania o intencjach itp. Główne cechy Struktura: benchmark (zadania i kryteria) + arena (symulacja) Czynniki regulacyjne: przestrzeń działań, złożoność stanu, liczba agentów Wskaźniki: wskaźnik sukcesu, optymalność planowania, efektywność próbkowania, wyniki koordynacji Obszar oceny Planowanie PDDL - długoterminowe planowanie, śledzenie ograniczeń Gry planszowe konkurencyjne - przewidywanie wrogie, reakcja na rozgałęzienia Gry karciane kooperacyjne - częściowa obserwowalność, koordynacja zespołowa Negocjacje wieloagentowe - formowanie sojuszy, wykrywanie blefu Wydajność LLM Mocne strony: proste wnioskowanie, krótkoterminowe planowanie Słabości: wnioskowanie wieloetapowe, przetwarzanie dużych stanów, koordynacja społeczna Luka wydajności w porównaniu do ludzi i profesjonalnych rozwiązań A więc ...