Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мы проделали долгий путь в стабильности обучения с использованием асинхронного RL.
Не так давно наивный grpo просто вылетал с torch compile из-за несоответствия. Но теперь мы можем значительно отклоняться от политики, чтобы справляться с агентным RL.
В расчете потерь prime-rl есть много действительно важных деталей, включение нашего последнего улучшения стабильности в некоторых из наших запусков дает значительное различие в несоответствии kl.

большая часть этого приходит от @Grad62304977, который находит альфу в недавней статье
122
Топ
Рейтинг
Избранное
