Tencent har nettopp drept finjustering og RL med et budsjett 🤯 på 18 dollar De utviklet en metode som fullstendig erstatter tradisjonell forsterkningslæring (RL). Det kalles Training-Free GRPO. Det lar LLM-er lære av 100 eksempler ved å behandle minne som en policyoptimalisator.