Tencent heeft net fine-tuning en RL gedood met een budget van $18 🤯 Ze hebben een methode ontwikkeld die traditionele Reinforcement Learning (RL) volledig vervangt. Het heet Training-Free GRPO. Het stelt LLM's in staat om van 100 voorbeelden te leren door geheugen als een beleidsoptimalisator te behandelen.