Мы проделали долгий путь в стабильности обучения с использованием асинхронного RL. Не так давно наивный grpo просто вылетал с torch compile из-за несоответствия. Но теперь мы можем значительно отклоняться от политики, чтобы справляться с агентным RL. В расчете потерь prime-rl есть много действительно важных деталей, включение нашего последнего улучшения стабильности в некоторых из наших запусков дает значительное различие в несоответствии kl.
большая часть этого приходит от @Grad62304977, который находит альфу в недавней статье
122