Tencent właśnie zabił fine-tuning i RL z budżetem 18 dolarów 🤯 Opracowali metodę, która całkowicie zastępuje tradycyjne uczenie przez wzmocnienie (RL). Nazywa się to Training-Free GRPO. Pozwala LLM-om uczyć się na podstawie 100 przykładów, traktując pamięć jako optymalizator polityki.