一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

#

Bonk 生態迷因幣展現強韌勢頭

#

有消息稱 Pump.fun 計劃 40 億估值發幣，引發市場猜測

LAUNCHCOIN-1.84%

#

Solana 新代幣發射平臺 Boop.Fun 風頭正勁

header

Tina He

真理會讓你自由

Tina He

Tina He12月10日 23:51

當代理人點擊這個螢幕時，我會為他們感到緊張。

1.09K

Tina He

Tina He12月5日 01:44

在設備上的智能

231

Tina He

Tina He12月2日 07:16

「多代理系統因為其組織方式而未能達到預期效果。」聽起來像是一群人組成的團隊

elvis

elvis12月2日 02:00

為代理建設者提供的精彩論文。多代理系統經常表現不佳。問題不在於代理本身的構建，而在於它們的組織方式。它們大多是用固定的鏈、樹和圖構建的，無法隨著任務的演變而適應。但如果系統能夠學習自己的協調模式呢？這項新研究介紹了Puppeteer，一個學習動態協調代理的框架，而不是依賴手工製作的拓撲結構。協調者根據不斷演變的對話狀態選擇下一個發言的代理，而不是預先定義合作結構。該策略使用REINFORCE進行訓練，直接優化任務成功率。它們不再在複雜的圖拓撲中搜索，而是將所有內容序列化為順序代理選擇。這種重新框架避免了組合複雜性。出現的結果令人驚訝：緊湊的循環模式自然發展。不是龐大的圖，而是2-3個代理處理大部分工作的緊密循環。值得注意的是，系統自己發現了效率。結果： - 在GSM-Hard數學問題上：70%的準確率（相比基礎模型的13.5%有所提升）。 - 在MMLU-Pro上：83%（對比76%的基準）。 - 在SRDD軟件開發上：76.4%（對比60.6%的基準）。這些增益伴隨著令牌消耗的減少。論文顯示，在訓練過程中，令牌成本持續下降，而性能卻在提高。他們還證明了代理選擇過程滿足馬爾可夫性質，這意味著當前狀態單獨決定最佳下一個代理。無需跟踪完整歷史。對於AI開發者來說，這很重要：學習的簡單性勝過工程的複雜性。一個訓練過的路由器與少數專門代理相比，可以在降低計算開銷的同時超越精心設計的工作流程。

308

熱門

排行

收藏

©2017 - 2025 WEB3.OKX.COM

繁體中文简体中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

關於 OKX Wallet

下載學院關於我們就業機會聯繫我們服務條款隱私政策 X (原推特)

產品

行情幣幣兌換市場賺幣發現開發者中心瀏覽器安全

用戶支持

幫助中心官方渠道驗證公告 DEX 費率標準加入社群比特幣錢包以太坊錢包 Solana 錢包