📈 зараз у тренді на alphaXiv "SkillRL: Еволюція агентів через рекурсивне навчання з підкріпленням навичок" SkillRL перетворює заплутані траєкторії спроб і помилок агента LLM на компактну та пошукову бібліотеку навичок, яка рекурсивно зростає під час RL Це дозволяє агенту з часом вивчати стратегії для повторного використання, а не просто відтворювати сирі спогади, що дає значний приріст (+15,3% над сильними базовими показниками) з набагато меншою кількістю токенів!