Tbh Saya pikir mereka sangat setia kepada GRPO sebagian besar * karena * mereka telah berinvestasi begitu banyak untuk menambal dan memahaminya. Mereka bersedia membayar biaya misalnya bias panjang untuk iterasi yang lebih pendek pada data baru. Jika Anda bukan DeepSeek, mungkin Anda bisa melompati GRPO.