熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
為代理建設者提供的精彩論文。
多代理系統經常表現不佳。問題不在於代理本身的構建,而在於它們的組織方式。
它們大多是用固定的鏈、樹和圖構建的,無法隨著任務的演變而適應。
但如果系統能夠學習自己的協調模式呢?
這項新研究介紹了Puppeteer,一個學習動態協調代理的框架,而不是依賴手工製作的拓撲結構。
協調者根據不斷演變的對話狀態選擇下一個發言的代理,而不是預先定義合作結構。該策略使用REINFORCE進行訓練,直接優化任務成功率。
它們不再在複雜的圖拓撲中搜索,而是將所有內容序列化為順序代理選擇。這種重新框架避免了組合複雜性。
出現的結果令人驚訝:緊湊的循環模式自然發展。不是龐大的圖,而是2-3個代理處理大部分工作的緊密循環。
值得注意的是,系統自己發現了效率。
結果:
- 在GSM-Hard數學問題上:70%的準確率(相比基礎模型的13.5%有所提升)。
- 在MMLU-Pro上:83%(對比76%的基準)。
- 在SRDD軟件開發上:76.4%(對比60.6%的基準)。
這些增益伴隨著令牌消耗的減少。論文顯示,在訓練過程中,令牌成本持續下降,而性能卻在提高。
他們還證明了代理選擇過程滿足馬爾可夫性質,這意味著當前狀態單獨決定最佳下一個代理。無需跟踪完整歷史。
對於AI開發者來說,這很重要:學習的簡單性勝過工程的複雜性。一個訓練過的路由器與少數專門代理相比,可以在降低計算開銷的同時超越精心設計的工作流程。

熱門
排行
收藏

