Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[Oppdatering på @SentientAGI SPIN-Bench]
Jeg oppsummerte hva SPIN-Bench handler om.
Oversikt over SPIN-Bench
SPIN-Bench er en målestokk som evaluerer den strategiske planleggingen, interaksjonen og forhandlingsevnene til store språkmodeller (LLM-er), og måler deres sosiale intelligens i et miljø med flere agenter.
Bakgrunn og formål
Utvikler: Sentient AGI (@SentientAGI), Princeton, UT Austin-samarbeid
Presentasjon: 2025 COLM, arXiv Paper (2025.03)
Formål: Undersøk begrensningene til LLM-ers sosiale intelligens, inkludert langsiktig planlegging, forhandling under usikkerhet og intensjonell resonnement.
Viktige funksjoner
Sammensetning: Benchmark (Utfordringer og kriterier) + Arena (Simulering)
Moderatorer: Handlingsområde, tilstandskompleksitet, antall agenter
Beregninger: Suksessrate, planleggingsoptimalitet, prøveeffektivitet, justeringsresultater
Domener for evaluering
PDDL-planlegging - Langsiktig planlegging, begrensningssporing
Konkurrerende brettspill - Kontradiktoriske spådommer, kvartalsvise breddesvar
Co-op kortspill - delvis observerbarhet, teamkoordinasjon
Forhandling med flere agenter - Danne allianser, oppdage bløffing
LLM-ytelse
Styrker: Enkel resonnement, kortsiktig planlegging
Svakheter: Resonnement i flere trinn, storskala statshåndtering, sosial koordinering
Ytelsesgap i forhold til menneskelige og profesjonelle løsere
Da ...

Topp
Rangering
Favoritter
