老实说,我认为他们对GRPO的忠诚很大程度上是因为他们在修补和理解它上投入了很多。他们愿意承担例如在新数据上进行短期迭代时的长度偏差成本。如果你不是DeepSeek,也许你可以直接超越GRPO。