Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[Actualizare @SentientAGI SPIN-Bench]
Am rezumat despre ce este SPIN-Bench.
Prezentare generală a SPIN-Bench
SPIN-Bench este un punct de referință care evaluează abilitățile de planificare strategică, interacțiune și negociere ale modelelor lingvistice mari (LLM), măsurându-le inteligența socială într-un mediu cu mai mulți agenți.
Context și scop
Dezvoltator: Sentient AGI (@SentientAGI), Princeton, UT Austin collaboration
Prezentare: 2025 COLM, arXiv Paper (2025.03)
Scop: Examinarea limitărilor inteligenței sociale a LLM-urilor, inclusiv planificarea pe termen lung, negocierea în condiții de incertitudine și raționamentul intenționat.
Caracteristici cheie
Compoziție: Benchmark (Provocări și criterii) + Arena (Simulare)
Moderatori: Spațiu de acțiune, complexitatea stării, numărul de agenți
Valori: rata de succes, optimalitatea planificării, eficiența eșantionului, rezultatele ajustării
Domenii de evaluare
Planificarea PDDL - Planificare pe termen lung, urmărirea constrângerilor
Jocuri de societate competitive - predicții adverse, răspunsuri trimestriale la lățime
Jocuri de cărți co-op - observabilitate parțială, coordonare de echipă
Negocierea cu mai mulți agenți - formarea de alianțe, detectarea cacealma
Performanța LLM
Puncte forte: Raționament simplu, planificare pe termen scurt
Puncte slabe: raționament în mai mulți pași, manipulare la scară largă a statului, coordonare socială
Diferența de performanță față de rezolvatorii umani și profesioniști
Apoi ...

Limită superioară
Clasament
Favorite
