[Päivitys @SentientAGI SPIN-Benchistä] Tein yhteenvedon siitä, mistä SPIN-Benchissä on kyse. SPIN-penkin yleiskatsaus SPIN-Bench on vertailukohta, joka arvioi suurten kielimallien (LLM) strategista suunnittelua, vuorovaikutusta ja neuvottelukykyä mittaamalla niiden sosiaalista älykkyyttä moniagenttiympäristössä. Tausta ja tarkoitus Kehittäjä: Sentient AGI (@SentientAGI), Princeton, UT Austin -yhteistyö Esitys: 2025 COLM, arXiv Paper (2025.03) Tarkoitus: Tutki LLM:n sosiaalisen älykkyyden rajoituksia, mukaan lukien pitkän aikavälin suunnittelu, neuvottelut epävarmuuden alla ja tarkoituksellinen päättely. Tärkeimmät ominaisuudet Kokoonpano: Benchmark (haasteet ja kriteerit) + Arena (simulaatio) Moderaattorit: Toiminta-avaruus, tilan monimutkaisuus, agenttien määrä Mittarit: Onnistumisprosentti, suunnittelun optimaalisuus, otoksen tehokkuus, säätötulokset Arvioinnin aihealueet PDDL-suunnittelu - pitkän aikavälin suunnittelu, rajoitusten seuranta Kilpailevat lautapelit - Vastakkaiset ennusteet, neljännesvuosittaiset leveysvastaukset Yhteistyökorttipelit - osittainen havainnoitavuus, tiimikoordinaatio Usean agentin neuvottelu - liittoutumien muodostaminen, bluffaamisen havaitseminen LLM-suorituskyky Vahvuudet: Yksinkertainen päättely, lyhyen aikavälin suunnittelu Heikkoudet: Monivaiheinen päättely, laajamittainen valtion käsittely, sosiaalinen koordinointi Suorituskykyero ihmisiin ja ammattimaisiin ratkaisijoihin verrattuna Sitten ...