Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[@SentientAGI Aktualizacja dotycząca SPIN-Bench]
Podsumowałem, o co chodzi w SPIN-Bench.
Przegląd SPIN-Bench
SPIN-Bench to benchmark oceniający zdolności strategicznego planowania, interakcji i negocjacji dużych modeli językowych (LLM), mierzący inteligencję społeczną w środowisku wieloagentowym.
Tło i cel
Rozwój: Sentient AGI(@SentientAGI), współpraca z Princeton, UT Austin
Prezentacja: COLM 2025, artykuł arXiv (2025.03)
Cel: Sprawdzenie ograniczeń inteligencji społecznej LLM w zakresie długoterminowego planowania, negocjacji w warunkach niepewności, wnioskowania o intencjach itp.
Główne cechy
Struktura: benchmark (zadania i kryteria) + arena (symulacja)
Czynniki regulacyjne: przestrzeń działań, złożoność stanu, liczba agentów
Wskaźniki: wskaźnik sukcesu, optymalność planowania, efektywność próbkowania, wyniki koordynacji
Obszar oceny
Planowanie PDDL - długoterminowe planowanie, śledzenie ograniczeń
Gry planszowe konkurencyjne - przewidywanie wrogie, reakcja na rozgałęzienia
Gry karciane kooperacyjne - częściowa obserwowalność, koordynacja zespołowa
Negocjacje wieloagentowe - formowanie sojuszy, wykrywanie blefu
Wydajność LLM
Mocne strony: proste wnioskowanie, krótkoterminowe planowanie
Słabości: wnioskowanie wieloetapowe, przetwarzanie dużych stanów, koordynacja społeczna
Luka wydajności w porównaniu do ludzi i profesjonalnych rozwiązań
A więc ...

Najlepsze
Ranking
Ulubione
