一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

为代理构建者提供的精彩论文。多代理系统往往无法达到预期效果。问题不在于代理本身的构建，而在于它们的组织方式。它们大多是用固定的链、树和图构建的，无法随着任务的演变而适应。但如果系统能够学习自己的协调模式呢？这项新研究介绍了Puppeteer，一个学习动态编排代理的框架，而不是依赖手工制作的拓扑结构。调度器不是预先定义协作结构，而是根据不断变化的对话状态选择下一个发言的代理。该策略通过REINFORCE进行训练，直接优化任务成功率。与其在复杂的图拓扑中搜索，他们将一切序列化为顺序代理选择。这种重新构建避免了组合复杂性。出现的结果令人惊讶：紧凑的循环模式自然发展。不是庞大的图，而是2-3个代理处理大部分工作的紧密循环。令人瞩目的是，系统能够自行发现效率。结果： - 在GSM-Hard数学问题上：70%的准确率（相比基础模型的13.5%有所提升）。 - 在MMLU-Pro上：83%（相比76%的基线）。 - 在SRDD软件开发上：76.4%（相比60.6%的基线）。这些提升伴随着减少的令牌消耗。论文显示，令牌成本在训练过程中持续下降，而性能则在提升。他们还证明了代理选择过程满足马尔可夫性质，这意味着当前状态单独决定最佳下一个代理。无需跟踪完整历史。这对AI开发者的重要性在于：学习的简单性胜过工程的复杂性。一个经过训练的路由器与少量专业代理相比，可以在减少计算开销的同时超越复杂的手工工作流程。