Hemos recorrido un largo camino en la estabilidad del entrenamiento de RL asíncrono. No hace mucho, un grpo ingenuo simplemente se bloqueaba con la compilación de torch debido a un desajuste. Pero ahora podemos alejarnos mucho de la política para manejar RL agente. Hay muchos detalles realmente importantes en el cálculo de la pérdida de prime-rl, activar nuestra última mejora de estabilidad en algunas de nuestras ejecuciones marca una gran diferencia en el desajuste de KL.
la mayor parte proviene de @Grad62304977 encontrando alpha en un artículo reciente
143