为代理构建者提供的精彩论文。 多代理系统往往无法达到预期效果。问题不在于代理本身的构建,而在于它们的组织方式。 它们大多是用固定的链、树和图构建的,无法随着任务的演变而适应。 但如果系统能够学习自己的协调模式呢? 这项新研究介绍了Puppeteer,一个学习动态编排代理的框架,而不是依赖手工制作的拓扑结构。 调度器不是预先定义协作结构,而是根据不断变化的对话状态选择下一个发言的代理。该策略通过REINFORCE进行训练,直接优化任务成功率。 与其在复杂的图拓扑中搜索,他们将一切序列化为顺序代理选择。这种重新构建避免了组合复杂性。 出现的结果令人惊讶:紧凑的循环模式自然发展。不是庞大的图,而是2-3个代理处理大部分工作的紧密循环。 令人瞩目的是,系统能够自行发现效率。 结果: - 在GSM-Hard数学问题上:70%的准确率(相比基础模型的13.5%有所提升)。 - 在MMLU-Pro上:83%(相比76%的基线)。 - 在SRDD软件开发上:76.4%(相比60.6%的基线)。 这些提升伴随着减少的令牌消耗。论文显示,令牌成本在训练过程中持续下降,而性能则在提升。 他们还证明了代理选择过程满足马尔可夫性质,这意味着当前状态单独决定最佳下一个代理。无需跟踪完整历史。 这对AI开发者的重要性在于:学习的简单性胜过工程的复杂性。一个经过训练的路由器与少量专业代理相比,可以在减少计算开销的同时超越复杂的手工工作流程。