Para ser sincero, acho que eles são tão leais ao GRPO principalmente *porque* investiram tanto em corrigir e entender isso. Eles estão dispostos a pagar os custos de, por exemplo, viés de comprimento para iterações mais curtas em novos dados. Se você não é o DeepSeek, talvez possa simplesmente ultrapassar o GRPO.