Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[Оновлення щодо @SentientAGI SPIN-Bench]
Я резюмував, що таке SPIN-Bench.
Огляд SPIN-Bench
SPIN-Bench – це еталон, який оцінює здібності до стратегічного планування, взаємодії та переговорів великих мовних моделей (LLM), вимірюючи їх соціальний інтелект у мультиагентному середовищі.
Передумови та призначення
Розробник: Sentient AGI (@SentientAGI), Прінстон, Техаський університет в Остіні
Презентація: 2025 COLM, arXiv Paper (2025.03)
Мета: Вивчити обмеження соціального інтелекту LLM, включаючи довгострокове планування, переговори в умовах невизначеності та навмисне міркування.
Ключові особливості
Склад: Бенчмарк (виклики та критерії) + Арена (симуляція)
Модератори: Простір дій, складність стану, кількість агентів
Показники: успішність, оптимальність планування, ефективність вибірки, результати коригування
Домени оцінювання
Планування PDDL - довгострокове планування, відстеження обмежень
Змагальні настільні ігри - змагальні прогнози, щоквартальні відповіді
Кооперативні карткові ігри - часткова спостережливість, координація команди
Переговори з кількома агентами - формування альянсів, виявлення блефу
Продуктивність LLM
Сильні сторони: Прості міркування, короткострокове планування
Слабкі сторони: Багатоступінчасте обґрунтування, широкомасштабне управління державою, соціальна координація
Розрив у продуктивності між людьми та професійними вирішувачами
То ...

Найкращі
Рейтинг
Вибране
