熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
新的部落格文章!這篇文章純粹是理論性的,試圖找出為什麼 LLM 在強化學習中會遭遇模式崩潰,並無法生成新穎或真正多樣的輸出。這其實是一個比你想的更複雜的問題!
單純通過提高溫度、輸出熵調節、pass@k 指標等來鼓勵探索是不足以避免在強化學習中造成探索瓶頸的。
這篇文章提出了一個新的理論,解釋為什麼會這樣以及如何解決這個問題,即通過使用去中心化的強化學習來創建一個模型的 "生態系統",而不僅僅是一個集中式的實例。

熱門
排行
收藏

