[Actualizare @SentientAGI SPIN-Bench] Am rezumat despre ce este SPIN-Bench. Prezentare generală a SPIN-Bench SPIN-Bench este un punct de referință care evaluează abilitățile de planificare strategică, interacțiune și negociere ale modelelor lingvistice mari (LLM), măsurându-le inteligența socială într-un mediu cu mai mulți agenți. Context și scop Dezvoltator: Sentient AGI (@SentientAGI), Princeton, UT Austin collaboration Prezentare: 2025 COLM, arXiv Paper (2025.03) Scop: Examinarea limitărilor inteligenței sociale a LLM-urilor, inclusiv planificarea pe termen lung, negocierea în condiții de incertitudine și raționamentul intenționat. Caracteristici cheie Compoziție: Benchmark (Provocări și criterii) + Arena (Simulare) Moderatori: Spațiu de acțiune, complexitatea stării, numărul de agenți Valori: rata de succes, optimalitatea planificării, eficiența eșantionului, rezultatele ajustării Domenii de evaluare Planificarea PDDL - Planificare pe termen lung, urmărirea constrângerilor Jocuri de societate competitive - predicții adverse, răspunsuri trimestriale la lățime Jocuri de cărți co-op - observabilitate parțială, coordonare de echipă Negocierea cu mai mulți agenți - formarea de alianțe, detectarea cacealma Performanța LLM Puncte forte: Raționament simplu, planificare pe termen scurt Puncte slabe: raționament în mai mulți pași, manipulare la scară largă a statului, coordonare socială Diferența de performanță față de rezolvatorii umani și profesioniști Apoi ...