Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[Aktualizace na @SentientAGI SPIN-Bench]
Shrnul jsem, o čem SPIN-Bench je.
Přehled SPIN-Bench
SPIN-Bench je benchmark, který hodnotí schopnosti strategického plánování, interakce a vyjednávání velkých jazykových modelů (LLM) a měří jejich sociální inteligenci v multiagentním prostředí.
Pozadí a účel
Vývojář: Spolupráce Sentient AGI (@SentientAGI), Princeton, UT Austin
Prezentace: 2025 COLM, článek arXiv (2025.03)
Účel: Prozkoumat omezení sociální inteligence LLM, včetně dlouhodobého plánování, vyjednávání v nejistotě a záměrného uvažování.
Klíčové vlastnosti
Složení: Benchmark (výzvy a kritéria) + Arena (simulace)
Moderátoři: Akční prostor, složitost stavu, počet agentů
Metriky: Úspěšnost, optimalita plánování, efektivita vzorku, výsledky úprav
Zkušební domény
PDDL plánování - dlouhodobé plánování, sledování omezení
Konkurenční deskové hry - Nepříznivé předpovědi, čtvrtletní šířky odezvy
Kooperativní karetní hry - částečná pozorovatelnost, koordinace týmu
Multi-agentní vyjednávání - vytváření aliancí, detekce blafování
LLM výkon
Silné stránky: Jednoduché uvažování, krátkodobé plánování
Slabé stránky: Vícestupňové uvažování, rozsáhlé řešení státu, sociální koordinace
Výkonnostní rozdíl oproti lidským a profesionálním řešitelům
Potom ...

Top
Hodnocení
Oblíbené
