多智能体系统(Multi-agent systems)经常让人失望? 问题可能不在于智能体本身,而在于它们的组织方式。 大多数系统采用固定的链式、树状或图状结构,无法随着任务的变化而调整。 但如果系统能够学习自己的协作模式呢? 这篇重磅论文介绍了一种名为 Puppeteer 的框架,它能动态地编排智能体,而不是依赖于预先设计好的拓扑结构。 关键在于: • 不再预定义协作结构,而是由一个协调器根据不断变化的对话状态来选择下一个发言的智能体。 • 使用 REINFORCE 算法训练策略,直接优化任务成功率。 • 将所有内容序列化为连续的智能体选择,而不是搜索复杂的图拓扑,从而避开组合复杂性。 结果令人惊讶: 自然形成了紧凑的循环模式,而不是庞大的图结构,其中 2-3 个智能体处理大部分工作。 更厉害的是,系统能够自主发现效率。 成果展示: • 在 GSM-Hard 数学问题上:准确率达到 70%(相比之下,基础模型单独使用时只有 13.5%)。 • 在 MMLU-Pro 上:达到 83%(基线为 76%)。 • 在 SRDD 软件开发上:达到 76.4%(基线为 60.6%)。 这些提升伴随着 token 消耗的降低。 论文表明,在整个训练过程中,token 成本持续下降,而性能却在提高。 他们还证明了智能体选择过程满足马尔可夫性质,这意味着当前状态就能决定最优的下一个智能体,无需跟踪完整历史。 所以: 对于 AI 开发者来说,学习到的简单性胜过精心设计的复杂性。 一个经过训练的路由器,加上一些专业智能体,就能胜过精心设计的工作流程,同时还能降低计算开销。
论文链接:
1.7K