热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
// 环境扩展的案例 //
环境扩展可能与模型扩展一样重要,尤其对于自主 AI。
当前的 AI 研究表明,构建一个强大的自主 AI 模型不仅仅是关于更好的推理。它还涉及更好的环境。
目前训练有能力的 AI 代理的默认方法是收集静态轨迹或人类示范。这需要更多的数据、更多的例子和更多的注释工作。
但静态数据无法教会动态决策。以这种方式训练的模型在面对真实自主任务的长期目标导向特性时表现不佳。
这项新研究引入了 Nex-N1,一个系统性扩展交互训练环境的多样性和复杂性的框架,而不仅仅是扩展数据。
代理能力源于互动,而非模仿。与其收集更多的示范,他们构建了基础设施,能够从自然语言规范中自动生成多样的代理架构和工作流程。
该系统有三个组成部分。NexAU(代理宇宙)提供一个通用代理框架,从简单配置生成复杂的代理层次结构。NexA4A(代理为代理)自动从自然语言合成多样的代理架构。NexGAP 通过集成现实世界的 MCP 工具来弥合模拟与现实之间的差距,以实现基于真实轨迹的合成。
结果:
- 在 τ2-bench 上,基于 DeepSeek-V3.1 的 Nex-N1 得分 80.2,超越基础模型的 42.8。
- 在 SWE-bench Verified 上,Qwen3-32B-Nex-N1 达到 50.5%,而基础模型为 12.9%。
- 在工具使用的 BFCL v4 上,Nex-N1(65.3)超越 GPT-5(61.6)。
在 43 个编码场景的真实项目开发中的人类评估中,Nex-N1 在 64.5% 的情况下胜过或平局于 Claude Sonnet 4.5,并在 ~70% 的情况下胜过 GPT-5。
他们还在 Nex-N1 上构建了一个深度研究代理,在深度研究基准上取得了 47.0% 的成绩,具备生成可视化报告的能力,包括幻灯片和研究海报。
论文:

热门
排行
收藏

