[Oppdatering på @SentientAGI SPIN-Bench] Jeg oppsummerte hva SPIN-Bench handler om. Oversikt over SPIN-Bench SPIN-Bench er en målestokk som evaluerer den strategiske planleggingen, interaksjonen og forhandlingsevnene til store språkmodeller (LLM-er), og måler deres sosiale intelligens i et miljø med flere agenter. Bakgrunn og formål Utvikler: Sentient AGI (@SentientAGI), Princeton, UT Austin-samarbeid Presentasjon: 2025 COLM, arXiv Paper (2025.03) Formål: Undersøk begrensningene til LLM-ers sosiale intelligens, inkludert langsiktig planlegging, forhandling under usikkerhet og intensjonell resonnement. Viktige funksjoner Sammensetning: Benchmark (Utfordringer og kriterier) + Arena (Simulering) Moderatorer: Handlingsområde, tilstandskompleksitet, antall agenter Beregninger: Suksessrate, planleggingsoptimalitet, prøveeffektivitet, justeringsresultater Domener for evaluering PDDL-planlegging - Langsiktig planlegging, begrensningssporing Konkurrerende brettspill - Kontradiktoriske spådommer, kvartalsvise breddesvar Co-op kortspill - delvis observerbarhet, teamkoordinasjon Forhandling med flere agenter - Danne allianser, oppdage bløffing LLM-ytelse Styrker: Enkel resonnement, kortsiktig planlegging Svakheter: Resonnement i flere trinn, storskala statshåndtering, sosial koordinering Ytelsesgap i forhold til menneskelige og profesjonelle løsere Da ...