熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

elvis
使用 AI 代理進行構建 @dair_ai • 上一篇: Meta AI、Galactica、LLM、Elastic、PaperswithCode、博士 • 我分享瞭如何使用 LLM 和 AI 代理⬇️進行構建的見解
Google 剛剛發布了一份關於多代理系統有效上下文工程的精彩指南。
AI 開發者們,請注意這一點!(記下來)
以下是我的主要收穫:
上下文窗口不是瓶頸。上下文工程才是。
對於更複雜和長期的問題,上下文管理不能被視為一個簡單的「字符串操作」問題。
目前在代理系統中處理上下文的默認方法仍然是將所有內容塞入提示中。更多的歷史,更多的標記,更多的混淆。大多數團隊將上下文視為字符串串接問題。
但原始上下文轉儲會造成三個關鍵失敗:
> 重複信息導致的成本爆炸
> 由於「迷失在中間」效應導致的性能下降
> 當代理錯誤地將行為歸因於系統時,幻覺率上升
上下文管理成為與存儲和計算並列的架構問題。這意味著顯式轉換取代了臨時的字符串串接。代理默認接收所需的最小上下文,並通過工具顯式請求額外信息。
看起來 Google 的代理開發工具包確實在深入思考上下文管理。它引入了一種分層架構,將上下文視為「狀態系統的編譯視圖」,而不是提示填充活動。
這看起來是什麼樣的?
1) 結構:分層模型
該框架在四個不同的層次上分離存儲和展示:
1) 工作上下文處理每次調用的短暫視圖。
2) 會話維護持久的事件日誌,捕捉每條消息、工具調用和控制信號。
3) 記憶提供可搜索的、長期存在的知識,超越單一會話。
4) 藝術品通過版本引用而非內嵌嵌入來管理大型二進制數據。
上下文編譯實際上是如何工作的?它通過有序的 LLM 流與顯式處理器來實現。內容處理器執行三個操作:選擇過濾不相關事件,轉換將事件展平為正確角色的內容對象,注入將格式化的歷史寫入 LLM 請求。
內容處理器本質上是會話和工作上下文之間的橋樑。
該架構通過將上下文分為穩定前綴(指令、身份、摘要)和可變後綴(最新回合、工具輸出)來實現前綴緩存。此外,static_instruction 原語保證系統提示的不可變性,保持調用之間的緩存有效性。
2) 現在重要的代理管理
一旦你弄清楚了結構,核心挑戰就變成了相關性。
你需要弄清楚現在活躍窗口中應該包含什麼。
ADK 通過人類定義的架構和代理決策之間的協作來回答這個問題。工程師定義數據的存放位置及其摘要方式。代理動態決定何時「獲取」特定的記憶塊或藝術品。
對於大型負載,ADK 應用了一種處理模式。5MB 的 CSV 或大型 JSON 響應存放在藝術品存儲中,而不是提示中。代理默認僅看到輕量級引用。當需要原始數據時,他們調用 LoadArtifactsTool 進行臨時擴展。任務完成後,藝術品卸載。這將永久上下文稅轉變為精確的按需訪問。
對於長期知識,MemoryService 提供兩種檢索模式:
1) 反應性回憶:代理識別知識空白並明確搜索語料庫。
2) 主動回憶:預處理器對用戶輸入運行相似性搜索,在模型調用之前注入相關片段。代理精確回憶當前步驟所需的片段,而不是攜帶他們曾經進行的每次對話。
所有這些讓我想起了 Claude Skills 的分層方法,這確實改善了 Claude Code 中上下文的有效使用。
3) 多代理上下文
單代理系統遭受上下文膨脹。在構建多代理時,這個問題進一步放大,這很容易導致「上下文爆炸」,因為你納入了更多的子代理。
為了使多代理協調有效,ADK 提供了兩種模式。代理作為工具將專門代理視為可調用的,接收專注的提示而不帶有祖先歷史。代理轉移,這使得完全控制的交接成為可能,子代理繼承會話視圖。include_contents 參數控制上下文流,默認為完整的工作上下文或僅提供新的提示。
在代理交接期間,什麼防止了幻覺?解決方案是對話翻譯。先前的助手消息轉換為帶有歸因標籤的敘事上下文。來自其他代理的工具調用被明確標記。每個代理在不將更廣泛系統的歷史錯誤歸因於自己的情況下,假設助手的角色。
最後,你不需要使用 Google ADK 來應用這些見解。我認為這些見解可以在構建多代理系統時普遍適用。
(圖片由 nano banana pro 提供)

1.24K
// 環境擴展的理由 //
環境擴展可能與模型擴展一樣重要,對於自主 AI 而言。
當前的 AI 研究表明,建立一個強大的自主 AI 模型不僅僅是關於更好的推理。這也關乎更好的環境。
當前訓練有能力的 AI 代理的默認方法是收集靜態軌跡或人類示範。這需要更多的數據、更多的例子和更多的標註工作。
但靜態數據無法教會動態決策。以這種方式訓練的模型在面對真實自主任務的長期目標導向性時會遇到困難。
這項新研究介紹了 Nex-N1,一個系統性擴展互動訓練環境的多樣性和複雜性的框架,而不僅僅是擴展數據。
代理的能力來自互動,而不是模仿。與其收集更多的示範,他們建立了基礎設施,能夠從自然語言規範自動生成多樣的代理架構和工作流程。
該系統有三個組件。NexAU(代理宇宙)提供一個通用的代理框架,能夠從簡單配置生成複雜的代理層級。NexA4A(代理為代理)自動從自然語言合成多樣的代理架構。NexGAP 通過整合現實世界的 MCP 工具來縮小模擬與現實之間的差距,以實現基於地面的軌跡合成。
結果:
- 在 τ2-bench 上,基於 DeepSeek-V3.1 的 Nex-N1 得分 80.2,超過基準模型的 42.8。
- 在 SWE-bench Verified 上,Qwen3-32B-Nex-N1 的成績為 50.5%,而基準模型為 12.9%。
- 在工具使用的 BFCL v4 上,Nex-N1(65.3)超過 GPT-5(61.6)。
在 43 個編碼場景的現實項目開發中的人類評估中,Nex-N1 在 64.5% 的情況下贏得或平局於 Claude Sonnet 4.5,並在約 70% 的情況下超過 GPT-5。
他們還在 Nex-N1 上建立了一個深度研究代理,在深度研究基準上達到 47.0%,具備生成可視化報告的能力,包括幻燈片和研究海報。
論文:

9.89K
熱門
排行
收藏


