Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[Uppdatering om @SentientAGI SPIN-Bench]
Jag sammanfattade vad SPIN-Bench handlar om.
SPIN-bänk Översikt
SPIN-Bench är ett riktmärke som utvärderar den strategiska planeringen, interaktionen och förhandlingsförmågan hos stora språkmodeller (LLM) och mäter deras sociala intelligens i en miljö med flera agenter.
Bakgrund och syfte
Utvecklare: Sentient AGI (@SentientAGI), Princeton, UT Austin samarbete
Presentation: 2025 COLM, arXiv Paper (2025.03)
Syfte: Undersöka begränsningarna i LLM:s sociala intelligens, inklusive långsiktig planering, förhandling under osäkerhet och avsiktligt resonemang.
Viktiga funktioner
Sammansättning: Benchmark (Utmaningar och Kriterier) + Arena (Simulering)
Moderatorer: Åtgärdsutrymme, tillståndskomplexitet, antal agenter
Mätvärden: Framgångsfrekvens, planeringsoptimalitet, proveffektivitet, justeringsresultat
Utvärdering domäner
PDDL-planering - Långsiktig planering, begränsningsspårning
Konkurrenskraftiga brädspel - Kontradiktoriska förutsägelser, kvartalsvisa breddsvar
Co-op kortspel - Delvis observerbarhet, lagkoordination
Multi-Agent Negotiation - Att bilda allianser, upptäcka bluffar
LLM-prestanda
Styrkor: Enkelt resonemang, kortsiktig planering
Svagheter: Flerstegsresonemang, storskalig statlig hantering, social samordning
Prestandagap jämfört med mänskliga och professionella lösare
Då ...

Topp
Rankning
Favoriter
