アシンクRLトレーニングの安定性は本当に大きく進歩しました つい最近までは、純粋なGRPOはマッチのミスマッチでTorch Compileでクラッシュしていました。しかし今では、エージェント型強化学習(Agentic RL)を扱う際には方針から大きく逸脱できます プライム-リルロス計算において非常に重要な詳細が多く、最新の安定性改善を一部のランでオンにするとKLミスマッチに大きな違いが出ます
その多くは、最近の論文で@Grad62304977がAlphaを見つけたことから来ています
126