📈 trendar nu på alphaXiv "SkillRL: Utvecklande agenter via rekursiv färdighetsförstärkt förstärkningsinlärning" SkillRL omvandlar en LLM-agents röriga trial-and-error-banor till ett kompakt och sökbart färdighetsbibliotek som växer rekursivt under RL Detta låter agenten faktiskt lära sig återanvändbara strategier över tid istället för att bara spela om råa minnen, vilket ger stora vinster (+15,3 % över starka baslinjer) med betydligt färre tokens!