📈 nyní trenduje na alphaXiv "SkillRL: Vývoj agentů prostřednictvím rekurzivního učení posilovaného dovednostmi" SkillRL proměňuje chaotické pokus-omylové trajektorie agenta LLM v kompaktní a vyhledávatelnou knihovnu dovedností, která během RL rekurzivně roste To umožňuje agentovi skutečně se postupně učit znovupoužitelné strategie, místo aby jen přehrával surové vzpomínky, což přináší velké zisky (+15,3 % oproti silným základům) s mnohem menším počtem tokenů!