📈 Trender nå på alphaXiv "FerdighetsRL: Utviklende agenter via rekursiv ferdighetsforsterket forsterkningslæring" SkillRL gjør en LLM-agents rotete trial-and-error-baner om til et kompakt og søkbart ferdighetsbibliotek som vokser rekursivt under RL Dette lar agenten faktisk lære gjenbrukbare strategier over tid i stedet for bare å spille råminner på nytt, noe som gir store gevinster (+15,3 % over sterke baselines) med langt færre tokens!