// 環境擴展的理由 // 環境擴展可能與模型擴展一樣重要,對於自主 AI 而言。 當前的 AI 研究表明,建立一個強大的自主 AI 模型不僅僅是關於更好的推理。這也關乎更好的環境。 當前訓練有能力的 AI 代理的默認方法是收集靜態軌跡或人類示範。這需要更多的數據、更多的例子和更多的標註工作。 但靜態數據無法教會動態決策。以這種方式訓練的模型在面對真實自主任務的長期目標導向性時會遇到困難。 這項新研究介紹了 Nex-N1,一個系統性擴展互動訓練環境的多樣性和複雜性的框架,而不僅僅是擴展數據。 代理的能力來自互動,而不是模仿。與其收集更多的示範,他們建立了基礎設施,能夠從自然語言規範自動生成多樣的代理架構和工作流程。 該系統有三個組件。NexAU(代理宇宙)提供一個通用的代理框架,能夠從簡單配置生成複雜的代理層級。NexA4A(代理為代理)自動從自然語言合成多樣的代理架構。NexGAP 通過整合現實世界的 MCP 工具來縮小模擬與現實之間的差距,以實現基於地面的軌跡合成。 結果: - 在 τ2-bench 上,基於 DeepSeek-V3.1 的 Nex-N1 得分 80.2,超過基準模型的 42.8。 - 在 SWE-bench Verified 上,Qwen3-32B-Nex-N1 的成績為 50.5%,而基準模型為 12.9%。 - 在工具使用的 BFCL v4 上,Nex-N1(65.3)超過 GPT-5(61.6)。 在 43 個編碼場景的現實項目開發中的人類評估中,Nex-N1 在 64.5% 的情況下贏得或平局於 Claude Sonnet 4.5,並在約 70% 的情況下超過 GPT-5。 他們還在 Nex-N1 上建立了一個深度研究代理,在深度研究基準上達到 47.0%,具備生成可視化報告的能力,包括幻燈片和研究海報。 論文: