新的部落格文章!這篇文章純粹是理論性的,試圖找出為什麼 LLM 在強化學習中會遭遇模式崩潰,並無法生成新穎或真正多樣的輸出。這其實是一個比你想的更複雜的問題! 單純通過提高溫度、輸出熵調節、pass@k 指標等來鼓勵探索是不足以避免在強化學習中造成探索瓶頸的。 這篇文章提出了一個新的理論,解釋為什麼會這樣以及如何解決這個問題,即通過使用去中心化的強化學習來創建一個模型的 "生態系統",而不僅僅是一個集中式的實例。