新しいブログ記事!これは純粋に理論的なもので、LLM が RL でモード崩壊に悩まされ、新規または真に多様な出力を生成できない中心的な理由を特定しようとしています。実は思っているよりもずっと複雑な問題です! 高温、出力エントロピー調整、pass@k指標などによる探査を単純に奨励するだけでは、RL 中の探査のボトルネックを回避するには十分ではありません。 この記事では、なぜそうなるのか、そしてそれを解決する方法について、つまり、分散型強化学習を使用して、単に 1 つの集中型インスタンスではなくモデルの「エコシステム」を作成するという新しい理論を提案しています。