📈 сейчас в тренде на alphaXiv "SkillRL: Эволюция агентов через рекурсивное обучение с подкреплением, дополненное навыками" SkillRL превращает неупорядоченные траектории проб и ошибок агента LLM в компактную и поисковую библиотеку навыков, которая рекурсивно растет во время RL Это позволяет агенту действительно учиться использовать повторяемые стратегии со временем, а не просто воспроизводить сырые воспоминания, что приводит к значительным улучшениям (+15,3% по сравнению с сильными базовыми моделями) при гораздо меньшем количестве токенов!