For å være ærlig tror jeg de er så lojale mot GRPO, stort sett *fordi* de har investert så mye i patching og forståelse av det. De er villige til å betale kostnadene ved f.eks. lengdeskjevhet for kortere iterasjoner av nye data. Hvis du ikke er DeepSeek, kan du kanskje bare hoppe over GRPO.