Hemos avanzado muchísimo en la estabilidad del entrenamiento asíncrono en la vida real No hace tanto, el grpo ingenuo simplemente se bloqueaba con la compilación de la antorcha por la desajuste. Pero ahora podemos alejarnos mucho de la política para manejar la vida real agente Hay muchos detalles realmente importantes en el cálculo de pérdidas Prime-RL, activar nuestra última mejora de estabilidad en parte de nuestra carrera marca una gran diferencia en el desajuste de KL
La mayor parte proviene de @Grad62304977 encontrando Alpha en un artículo reciente
131