Tencent har precis lagt ner finjustering och RL med en budget 🤯 på 18 dollar De utvecklade en metod som helt ersätter traditionell förstärkningsinlärning (RL). Det kallas Träningsfritt GRPO. Det gör det möjligt för LLM:er att lära sig från 100 exempel genom att behandla minnet som en policyoptimerare.