Pour être honnête, je pense qu'ils sont si loyaux envers GRPO en grande partie *parce que* ils ont investi tant d'efforts dans le patching et la compréhension de celui-ci. Ils sont prêts à payer les coûts, par exemple, le biais de longueur pour des itérations plus courtes sur de nouvelles données. Si vous n'êtes pas DeepSeek, peut-être pouvez-vous simplement devancer GRPO.