Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[@SentientAGI SPIN-Bench ile ilgili güncelleme]
SPIN-Bench'in ne hakkında olduğunu özetledim.
SPIN-Bench'e Genel Bakış
SPIN-Bench, büyük dil modellerinin (LLM'ler) stratejik planlama, etkileşim ve müzakere yeteneklerini değerlendiren ve çok etmenli bir ortamda sosyal zekalarını ölçen bir kıyaslamadır.
Arka Plan ve Amaç
Geliştirici: Sentient AGI (@SentientAGI), Princeton, UT Austin işbirliği
Sunum: 2025 COLM, arXiv Bildirisi (2025.03)
Amaç: Uzun vadeli planlama, belirsizlik altında müzakere ve kasıtlı akıl yürütme dahil olmak üzere LLM'lerin sosyal zekasının sınırlamalarını inceleyin.
Ana Özellikler
Kompozisyon: Benchmark (Zorluklar & Kriterler) + Arena (Simülasyon)
Moderatörler: Eylem alanı, durum karmaşıklığı, aracı sayısı
Metrikler: Başarı oranı, planlama optimalliği, numune verimliliği, ayarlama sonuçları
Değerlendirme Alanları
PDDL Planlama - Uzun Vadeli Planlama, Kısıt Takibi
Rekabetçi Masa Oyunları - Rakip Tahminler, Üç Aylık Genişlik Yanıtları
İşbirliğine Dayalı Kart Oyunları - Kısmi Gözlemlenebilirlik, Takım Koordinasyonu
Çok Etmenli Müzakere - İttifaklar Kurmak, Blöf Yapmayı Tespit Etmek
LLM performansı
Güçlü Yönler: Basit akıl yürütme, kısa vadeli planlama
Zayıf Yönler: Çok adımlı akıl yürütme, büyük ölçekli durum yönetimi, sosyal koordinasyon
İnsan ve profesyonel çözümleyiciler arasındaki performans farkı
Sonra ...

En İyiler
Sıralama
Takip Listesi
