Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Мы проделали долгий путь в стабильности обучения с использованием асинхронного RL. Не так давно наивный grpo просто вылетал с torch compile из-за несоответствия. Но теперь мы можем значительно отклоняться от политики, чтобы справляться с агентным RL. В расчете потерь prime-rl есть много действительно важных деталей, включение нашего последнего улучшения стабильности в некоторых из наших запусков дает значительное различие в несоответствии kl.

большая часть этого приходит от @Grad62304977, который находит альфу в недавней статье

122

Топ

Рейтинг

Избранное