Tencent baru saja membunuh fine-tuning dan RL dengan anggaran 🤯 $18 Mereka mengembangkan metode yang menggantikan Reinforcement Learning (RL) tradisional sepenuhnya. Ini disebut GRPO Bebas Pelatihan. Ini memungkinkan LLM untuk belajar dari 100 contoh dengan memperlakukan memori sebagai pengoptimal kebijakan.