Tencent ha appena ucciso il fine-tuning e il RL con un budget di 18 dollari 🤯 Hanno sviluppato un metodo che sostituisce completamente il Reinforcement Learning (RL) tradizionale. Si chiama Training-Free GRPO. Permette ai LLM di apprendere da 100 esempi trattando la memoria come un ottimizzatore di politiche.