Чесно кажучи, я вважаю, що вони дуже лояльні до GRPO здебільшого *тому*, що вони вклали багато в патчі та розуміння його. Вони готові платити витрати, наприклад, за упередження довжини за коротші ітерації нових даних. Якщо ти не DeepSeek, можливо, просто зможеш обійти GRPO.