Fizemos um longo caminho na estabilidade do treinamento de RL assíncrono Não faz muito tempo, o grpo ingênuo simplesmente travava com a compilação do torch devido a incompatibilidades. Mas agora podemos ir muito longe da política para lidar com RL agente muitos detalhes realmente importantes no cálculo da perda do prime-rl, ativar nossa última melhoria de estabilidade em algumas de nossas execuções faz uma grande diferença na incompatibilidade de kl
a maior parte vem de @Grad62304977 encontrando alpha em um artigo recente
126