📈 nyt trendissä alphaXiv:ssä "SkillRL: Agenttien kehittyminen rekursiivisen taito-augmentoidun vahvistusoppimisen avulla" SkillRL muuttaa LLM-agentin sotkuiset kokeilu- ja erehdyspolut kompaktiksi ja haettavaksi taitokirjastoksi, joka kasvaa rekursiivisesti RL:n aikana Tämä antaa agentille mahdollisuuden oppia uudelleenkäytettäviä strategioita ajan myötä sen sijaan, että pelkästään pelaisi raakoja muistoja uudelleen, tuottaen suuria voittoja (+15,3 % vahvoista lähtötasoista) paljon vähemmillä tokeneilla!