[@SentientAGI Обновление о SPIN-Bench] Я подготовил краткое содержание о SPIN-Bench. Обзор SPIN-Bench SPIN-Bench — это бенчмарк для оценки стратегического планирования, взаимодействия и переговорных способностей крупных языковых моделей (LLM), измеряющий социальный интеллект в многопользовательской среде. Фон и цель Разработка: Sentient AGI(@SentientAGI), Princeton, UT Austin в сотрудничестве Презентация: COLM 2025, статья arXiv (2025.03) Цель: Проверка пределов социального интеллекта LLM в долгосрочном планировании, переговорах в условиях неопределенности, выводах о намерениях и т.д. Ключевые особенности Состав: бенчмарк (задачи и критерии) + арена (симуляция) Регулирующие факторы: пространство действий, сложность состояния, количество агентов Показатели: уровень успеха, оптимальность планирования, эффективность выборки, результаты координации Области оценки PDDL Planning - долгосрочное планирование, отслеживание ограничений Соревновательные настольные игры - враждебное предсказание, реагирование на разветвления Кооперативные карточные игры - частичная наблюдаемость, командная координация Многопользовательские переговоры - формирование альянсов, обнаружение блефа Производительность LLM Сильные стороны: простое рассуждение, краткосрочное планирование Слабые стороны: многослойное рассуждение, обработка больших состояний, социальная координация Разрыв в производительности по сравнению с людьми и профессиональными решателями Так что же...