Upřímně si myslím, že jsou tak loajální k GRPO hlavně *proto* že do jeho patchování a pochopení investovali tolik. Jsou ochotni zaplatit náklady například za délkové zkreslení za kratší iterace nových dat. Pokud nejsi DeepSeek, možná můžeš prostě přeskočit GRPO.