BF16 -> FP16 es un cambio tan simple (un cambio de configuración en Oat) pero fundamental para la discrepancia entre inferencia y entrenamiento. Con FP16, el muestreo de importancia PG más básico supera todas las soluciones algorítmicas en BF16. Repensamos la estabilidad de RL desde la perspectiva de la precisión.🔎