📈 teraz na czołowej liście alphaXiv "SkillRL: Ewolucja agentów za pomocą rekurencyjnego uczenia przez wzmocnienie z wykorzystaniem umiejętności" SkillRL przekształca chaotyczne trajektorie prób i błędów agenta LLM w kompaktową i przeszukiwalną bibliotekę umiejętności, która rośnie rekurencyjnie podczas RL To pozwala agentowi rzeczywiście uczyć się strategii, które można ponownie wykorzystać w czasie, zamiast tylko odtwarzać surowe wspomnienia, co przynosi duże zyski (+15,3% w porównaniu do silnych bazowych) przy znacznie mniejszej liczbie tokenów!