Sincer, cred că sunt atât de loiali lui GRPO în mare parte *pentru că* au investit atât de mult în patch-uri și înțelegere. Ei sunt dispuși să plătească costurile, de exemplu, bias de lungime pentru iterații mai scurte pe date noi. Dacă nu ești DeepSeek, poate poți pur și simplu să sari peste GRPO.