Tencent hat gerade das Fine-Tuning und das RL mit einem Budget von 18 $ getötet 🤯 Sie haben eine Methode entwickelt, die das traditionelle Reinforcement Learning (RL) vollständig ersetzt. Es heißt Training-Free GRPO. Es ermöglicht LLMs, aus 100 Beispielen zu lernen, indem es das Gedächtnis als Policy-Optimizer behandelt.