Avançamos muito na estabilidade do treinamento assíncrono na vida real Não faz muito tempo, grpo ingênuo simplesmente travava com o compilar da tocha por causa do descompate. Mas agora podemos nos afastar muito da política para lidar com o RL agentico Muitos detalhes realmente importantes no cálculo de perda prime-RL, ativar nossa mais recente melhoria de estabilidade em algumas das nossas corridas faz uma grande diferença no desajuste de KL
A maior parte vem de @Grad62304977 encontrando Alpha em um artigo recente
130