跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-18.47%
USELESS
-7.75%
IKUN
-9.33%
gib
-16.03%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-4.75%
ALON
-11.64%
LAUNCHCOIN
-1.84%
GOONC
-4.85%
KLED
-6.71%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.09%
Boopa
-2.62%
PORK
-2.87%
主頁
Tina He
真理會讓你自由
查看原文
Tina He
12月10日 23:51
當代理人點擊這個螢幕時,我會為他們感到緊張。
1.09K
5
Tina He
12月5日 01:44
在設備上的智能
231
Tina He
12月2日 07:16
「多代理系統因為其組織方式而未能達到預期效果。」 聽起來像是一群人組成的團隊
elvis
12月2日 02:00
為代理建設者提供的精彩論文。 多代理系統經常表現不佳。問題不在於代理本身的構建,而在於它們的組織方式。 它們大多是用固定的鏈、樹和圖構建的,無法隨著任務的演變而適應。 但如果系統能夠學習自己的協調模式呢? 這項新研究介紹了Puppeteer,一個學習動態協調代理的框架,而不是依賴手工製作的拓撲結構。 協調者根據不斷演變的對話狀態選擇下一個發言的代理,而不是預先定義合作結構。該策略使用REINFORCE進行訓練,直接優化任務成功率。 它們不再在複雜的圖拓撲中搜索,而是將所有內容序列化為順序代理選擇。這種重新框架避免了組合複雜性。 出現的結果令人驚訝:緊湊的循環模式自然發展。不是龐大的圖,而是2-3個代理處理大部分工作的緊密循環。 值得注意的是,系統自己發現了效率。 結果: - 在GSM-Hard數學問題上:70%的準確率(相比基礎模型的13.5%有所提升)。 - 在MMLU-Pro上:83%(對比76%的基準)。 - 在SRDD軟件開發上:76.4%(對比60.6%的基準)。 這些增益伴隨著令牌消耗的減少。論文顯示,在訓練過程中,令牌成本持續下降,而性能卻在提高。 他們還證明了代理選擇過程滿足馬爾可夫性質,這意味著當前狀態單獨決定最佳下一個代理。無需跟踪完整歷史。 對於AI開發者來說,這很重要:學習的簡單性勝過工程的複雜性。一個訓練過的路由器與少數專門代理相比,可以在降低計算開銷的同時超越精心設計的工作流程。
308
1
熱門
排行
收藏