多智能體系統(Multi-agent systems)經常讓人失望? 問題可能不在於智能體本身,而在於它們的組織方式。 大多數系統採用固定的鏈式、樹狀或圖狀結構,無法隨著任務的變化而調整。 但如果系統能夠學習自己的協作模式呢? 這篇重磅論文介紹了一種名為 Puppeteer 的框架,它能動態地編排智能體,而不是依賴於預先設計好的拓撲結構。 關鍵在於: • 不再預定義協作結構,而是由一個協調器根據不斷變化的對話狀態來選擇下一個發言的智能體。 • 使用 REINFORCE 算法訓練策略,直接優化任務成功率。 • 將所有內容序列化為連續的智能體選擇,而不是搜索複雜的圖拓撲,從而避開組合複雜性。 結果令人驚訝: 自然形成了緊湊的循環模式,而不是龐大的圖結構,其中 2-3 個智能體處理大部分工作。 更厲害的是,系統能夠自主發現效率。 成果展示: • 在 GSM-Hard 數學問題上:準確率達到 70%(相比之下,基礎模型單獨使用時只有 13.5%)。 • 在 MMLU-Pro 上:達到 83%(基線為 76%)。 • 在 SRDD 軟件開發上:達到 76.4%(基線為 60.6%)。 這些提升伴隨著 token 消耗的降低。 論文表明,在整個訓練過程中,token 成本持續下降,而性能卻在提高。 他們還證明了智能體選擇過程滿足馬爾可夫性質,這意味著當前狀態就能決定最優的下一個智能體,無需跟蹤完整歷史。 所以: 對於 AI 開發者來說,學習到的簡單性勝過精心設計的複雜性。 一個經過訓練的路由器,加上一些專業智能體,就能勝過精心設計的工作流程,同時還能降低計算開銷。
論文鏈接:
1.7K