Para ser sincero, creo que son tan leales a GRPO en gran parte *por* que han invertido mucho en parchearlo y entenderlo. Están dispuestos a asumir los costes, por ejemplo, por el sesgo de longitud por iteraciones más cortas en datos nuevos. Si no eres DeepSeek, quizá puedas simplemente saltar GRPO.