Om eerlijk te zijn denk ik dat ze zo loyaal zijn aan GRPO grotendeels *omdat* ze zoveel hebben geïnvesteerd in het verbeteren en begrijpen ervan. Ze zijn bereid de kosten van bijvoorbeeld lengtebias te betalen voor kortere iteraties op nieuwe gegevens. Als je niet DeepSeek bent, kun je misschien gewoon GRPO inhalen.