[@SentientAGI SPIN-Bench Update] Ich habe die Inhalte von SPIN-Bench zusammengefasst. Überblick über SPIN-Bench SPIN-Bench ist ein Benchmark zur Bewertung der strategischen Planung, Interaktion und Verhandlungsfähigkeiten von großen Sprachmodellen (LLM) und misst die soziale Intelligenz in einer Multi-Agenten-Umgebung. Hintergrund und Ziel Entwicklung: Sentient AGI(@SentientAGI), Princeton, UT Austin Zusammenarbeit Präsentation: COLM 2025, arXiv-Papier (2025.03) Ziel: Überprüfung der Grenzen der sozialen Intelligenz von LLM in Bezug auf langfristige Planung, Verhandlungen unter Unsicherheit, Intentionsinferenz usw. Hauptmerkmale Zusammensetzung: Benchmark (Aufgaben und Kriterien) + Arena (Simulation) Regelbare Faktoren: Handlungsraum, Zustandskomplexität, Anzahl der Agenten Metriken: Erfolgsquote, Planungsoptimalität, Stichprobeneffizienz, Koordinationsergebnisse Bewertungsdomänen PDDL-Planung - langfristige Planung, Einschränkungsverfolgung Wettbewerbsfähige Brettspiele - feindliche Vorhersagen, Reaktion auf Verzweigungen Kooperative Kartenspiele - partielle Beobachtbarkeit, Teamkoordination Multi-Agenten-Verhandlung - Koalitionsbildung, Bluff-Erkennung LLM-Leistung Stärken: einfache Inferenz, kurzfristige Planung Schwächen: mehrstufige Inferenz, Verarbeitung großer Zustände, soziale Koordination Leistungsunterschiede im Vergleich zu Menschen und professionellen Lösungsansätzen Was ist also die Rolle von...