老實說,我認為他們對 GRPO 的忠誠主要是因為他們在修補和理解它上投入了如此多的資源。他們願意承擔例如在新數據上進行較短迭代所帶來的長度偏差成本。如果你不是 DeepSeek,也許你可以直接超越 GRPO。