[@SentientAGI SPIN-Bench ile ilgili güncelleme] SPIN-Bench'in ne hakkında olduğunu özetledim. SPIN-Bench'e Genel Bakış SPIN-Bench, büyük dil modellerinin (LLM'ler) stratejik planlama, etkileşim ve müzakere yeteneklerini değerlendiren ve çok etmenli bir ortamda sosyal zekalarını ölçen bir kıyaslamadır. Arka Plan ve Amaç Geliştirici: Sentient AGI (@SentientAGI), Princeton, UT Austin işbirliği Sunum: 2025 COLM, arXiv Bildirisi (2025.03) Amaç: Uzun vadeli planlama, belirsizlik altında müzakere ve kasıtlı akıl yürütme dahil olmak üzere LLM'lerin sosyal zekasının sınırlamalarını inceleyin. Ana Özellikler Kompozisyon: Benchmark (Zorluklar & Kriterler) + Arena (Simülasyon) Moderatörler: Eylem alanı, durum karmaşıklığı, aracı sayısı Metrikler: Başarı oranı, planlama optimalliği, numune verimliliği, ayarlama sonuçları Değerlendirme Alanları PDDL Planlama - Uzun Vadeli Planlama, Kısıt Takibi Rekabetçi Masa Oyunları - Rakip Tahminler, Üç Aylık Genişlik Yanıtları İşbirliğine Dayalı Kart Oyunları - Kısmi Gözlemlenebilirlik, Takım Koordinasyonu Çok Etmenli Müzakere - İttifaklar Kurmak, Blöf Yapmayı Tespit Etmek LLM performansı Güçlü Yönler: Basit akıl yürütme, kısa vadeli planlama Zayıf Yönler: Çok adımlı akıl yürütme, büyük ölçekli durum yönetimi, sosyal koordinasyon İnsan ve profesyonel çözümleyiciler arasındaki performans farkı Sonra ...