热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
为代理构建者提供的精彩论文。
多代理系统往往无法达到预期效果。问题不在于代理本身的构建,而在于它们的组织方式。
它们大多是用固定的链、树和图构建的,无法随着任务的演变而适应。
但如果系统能够学习自己的协调模式呢?
这项新研究介绍了Puppeteer,一个学习动态编排代理的框架,而不是依赖手工制作的拓扑结构。
调度器不是预先定义协作结构,而是根据不断变化的对话状态选择下一个发言的代理。该策略通过REINFORCE进行训练,直接优化任务成功率。
与其在复杂的图拓扑中搜索,他们将一切序列化为顺序代理选择。这种重新构建避免了组合复杂性。
出现的结果令人惊讶:紧凑的循环模式自然发展。不是庞大的图,而是2-3个代理处理大部分工作的紧密循环。
令人瞩目的是,系统能够自行发现效率。
结果:
- 在GSM-Hard数学问题上:70%的准确率(相比基础模型的13.5%有所提升)。
- 在MMLU-Pro上:83%(相比76%的基线)。
- 在SRDD软件开发上:76.4%(相比60.6%的基线)。
这些提升伴随着减少的令牌消耗。论文显示,令牌成本在训练过程中持续下降,而性能则在提升。
他们还证明了代理选择过程满足马尔可夫性质,这意味着当前状态单独决定最佳下一个代理。无需跟踪完整历史。
这对AI开发者的重要性在于:学习的简单性胜过工程的复杂性。一个经过训练的路由器与少量专业代理相比,可以在减少计算开销的同时超越复杂的手工工作流程。

热门
排行
收藏

