[@SentientAGI Aggiornamento su SPIN-Bench] Ho riassunto di cosa tratta SPIN-Bench. Panoramica di SPIN-Bench SPIN-Bench è un benchmark per valutare le capacità di pianificazione strategica, interazione e negoziazione dei modelli di linguaggio di grandi dimensioni (LLM), misurando l'intelligenza sociale in ambienti multi-agente. Contesto e obiettivi Sviluppo: Sentient AGI(@SentientAGI), collaborazione con Princeton, UT Austin Presentazione: COLM 2025, articolo arXiv (2025.03) Obiettivo: Verificare i limiti dell'intelligenza sociale degli LLM in termini di pianificazione a lungo termine, negoziazione in condizioni di incertezza, inferenza delle intenzioni, ecc. Caratteristiche principali Struttura: benchmark (compiti e criteri) + arena (simulazione) Fattori di regolazione: spazio delle azioni, complessità dello stato, numero di agenti Indicatori: tasso di successo, ottimalità della pianificazione, efficienza del campionamento, risultati di coordinamento Domini di valutazione PDDL Planning - pianificazione a lungo termine, tracciamento delle restrizioni Giochi da tavolo competitivi - previsione ostile, risposta a esplosioni ramificate Giochi di carte cooperativi - osservabilità parziale, coordinamento di squadra Negoziazione multi-agente - formazione di alleanze, rilevamento del bluff Prestazioni degli LLM Punti di forza: inferenza semplice, pianificazione a breve termine Punti deboli: inferenza a più fasi, gestione di stati su larga scala, coordinamento sociale Divario di prestazioni rispetto a risolutori umani e professionali Quindi, qual è il ruolo di...