La verdad es que creo que son tan leales a GRPO en gran parte *porque* han invertido tanto en arreglarlo y entenderlo. Están dispuestos a asumir los costos de, por ejemplo, el sesgo de longitud para iteraciones más cortas con nuevos datos. Si no eres DeepSeek, tal vez puedas simplemente saltar por encima de GRPO.