Tencent právě zlikvidoval doladění a reálné životy s rozpočtem 🤯 18 dolarů Vyvinuli metodu, která zcela nahrazuje tradiční posilované učení (RL). Jmenuje se Training-Free GRPO. Umožňuje LLM učit se ze 100 příkladů tím, že paměť považuje za optimalizátor politik.