Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[Päivitys @SentientAGI SPIN-Benchistä]
Tein yhteenvedon siitä, mistä SPIN-Benchissä on kyse.
SPIN-penkin yleiskatsaus
SPIN-Bench on vertailukohta, joka arvioi suurten kielimallien (LLM) strategista suunnittelua, vuorovaikutusta ja neuvottelukykyä mittaamalla niiden sosiaalista älykkyyttä moniagenttiympäristössä.
Tausta ja tarkoitus
Kehittäjä: Sentient AGI (@SentientAGI), Princeton, UT Austin -yhteistyö
Esitys: 2025 COLM, arXiv Paper (2025.03)
Tarkoitus: Tutki LLM:n sosiaalisen älykkyyden rajoituksia, mukaan lukien pitkän aikavälin suunnittelu, neuvottelut epävarmuuden alla ja tarkoituksellinen päättely.
Tärkeimmät ominaisuudet
Kokoonpano: Benchmark (haasteet ja kriteerit) + Arena (simulaatio)
Moderaattorit: Toiminta-avaruus, tilan monimutkaisuus, agenttien määrä
Mittarit: Onnistumisprosentti, suunnittelun optimaalisuus, otoksen tehokkuus, säätötulokset
Arvioinnin aihealueet
PDDL-suunnittelu - pitkän aikavälin suunnittelu, rajoitusten seuranta
Kilpailevat lautapelit - Vastakkaiset ennusteet, neljännesvuosittaiset leveysvastaukset
Yhteistyökorttipelit - osittainen havainnoitavuus, tiimikoordinaatio
Usean agentin neuvottelu - liittoutumien muodostaminen, bluffaamisen havaitseminen
LLM-suorituskyky
Vahvuudet: Yksinkertainen päättely, lyhyen aikavälin suunnittelu
Heikkoudet: Monivaiheinen päättely, laajamittainen valtion käsittely, sosiaalinen koordinointi
Suorituskykyero ihmisiin ja ammattimaisiin ratkaisijoihin verrattuna
Sitten ...

Johtavat
Rankkaus
Suosikit
