Tencent только что убил дообучение и RL с бюджетом в $18 🤯 Они разработали метод, который полностью заменяет традиционное Обучение с Подкреплением (RL). Он называется Training-Free GRPO. Он позволяет LLM учиться на 100 примерах, рассматривая память как оптимизатор политики.