一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

新的部落格文章！這篇文章純粹是理論性的，試圖找出為什麼 LLM 在強化學習中會遭遇模式崩潰，並無法生成新穎或真正多樣的輸出。這其實是一個比你想的更複雜的問題！單純通過提高溫度、輸出熵調節、pass@k 指標等來鼓勵探索是不足以避免在強化學習中造成探索瓶頸的。這篇文章提出了一個新的理論，解釋為什麼會這樣以及如何解決這個問題，即通過使用去中心化的強化學習來創建一個模型的 "生態系統"，而不僅僅是一個集中式的實例。