[@SentientAGI SPIN-Bench 的更新] 我总结了 SPIN-Bench 的内容。 SPIN-Bench 概述 SPIN-Bench 是一个评估大型语言模型(LLM)战略规划、互动和谈判能力的基准,测量多智能体环境中的社会智能。 背景与目的 开发:Sentient AGI(@SentientAGI),普林斯顿大学,德克萨斯大学奥斯汀分校合作 发布:2025 年 COLM,arXiv 论文(2025.03) 目的:检查 LLM 在长期规划、不确定性下的谈判、意图推理等方面的社会智能极限 主要特点 组成:基准(任务和标准)+ 竞技场(模拟) 调节因素:行为空间、状态复杂性、智能体数量 指标:成功率、规划最优性、样本效率、协调结果 评估领域 PDDL 规划 - 长期规划、约束追踪 竞争棋盘游戏 - 敌对预测、分支爆发应对 合作纸牌游戏 - 部分可观察性、团队协调 多智能体谈判 - 联盟形成、虚张声势检测 LLM 性能 优势:简单推理、短期规划 劣势:多步骤推理、大规模状态处理、社会协调 与人类和专业求解器的性能差距 那么...