Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[@SentientAGI Обновление о SPIN-Bench]
Я подготовил краткое содержание о SPIN-Bench.
Обзор SPIN-Bench
SPIN-Bench — это бенчмарк для оценки стратегического планирования, взаимодействия и переговорных способностей крупных языковых моделей (LLM), измеряющий социальный интеллект в многопользовательской среде.
Фон и цель
Разработка: Sentient AGI(@SentientAGI), Princeton, UT Austin в сотрудничестве
Презентация: COLM 2025, статья arXiv (2025.03)
Цель: Проверка пределов социального интеллекта LLM в долгосрочном планировании, переговорах в условиях неопределенности, выводах о намерениях и т.д.
Ключевые особенности
Состав: бенчмарк (задачи и критерии) + арена (симуляция)
Регулирующие факторы: пространство действий, сложность состояния, количество агентов
Показатели: уровень успеха, оптимальность планирования, эффективность выборки, результаты координации
Области оценки
PDDL Planning - долгосрочное планирование, отслеживание ограничений
Соревновательные настольные игры - враждебное предсказание, реагирование на разветвления
Кооперативные карточные игры - частичная наблюдаемость, командная координация
Многопользовательские переговоры - формирование альянсов, обнаружение блефа
Производительность LLM
Сильные стороны: простое рассуждение, краткосрочное планирование
Слабые стороны: многослойное рассуждение, обработка больших состояний, социальная координация
Разрыв в производительности по сравнению с людьми и профессиональными решателями
Так что же...

Топ
Рейтинг
Избранное
