Um ehrlich zu sein, denke ich, dass sie GRPO so loyal sind, hauptsächlich *weil* sie so viel in das Patching und das Verständnis investiert haben. Sie sind bereit, die Kosten für z. B. Längenverzerrungen für kürzere Iterationen mit neuen Daten zu tragen. Wenn du nicht DeepSeek bist, kannst du vielleicht einfach GRPO überholen.