Честно говоря, я думаю, что они так преданы GRPO в значительной степени *потому что* они вложили так много сил в его исправление и понимание. Они готовы платить за такие вещи, как смещение длины, ради более коротких итераций на новых данных. Если вы не DeepSeek, возможно, вы сможете просто перепрыгнуть через GRPO.