Açıkçası bence GRPO'ya bu kadar sadıklar, çünkü onu yamalamak ve anlamak için çok yatırım yaptılar. Yeni verilerde daha kısa yinelemeler için örneğin uzunluk yanlılığının maliyetini ödemeye hazırlar. Eğer DeepSeek değilsen, belki GRPO'yu kolayca geçebilirsin.