📈 sekarang sedang tren di alphaXiv "SkillRL: Agen yang Berkembang melalui Pembelajaran Penguatan yang Ditambah Keterampilan Rekursif" SkillRL mengubah lintasan coba-coba agen LLM yang berantakan menjadi pustaka keterampilan yang ringkas dan dapat dicari yang tumbuh secara rekursif selama RL Ini memungkinkan agen benar-benar mempelajari strategi yang dapat digunakan kembali dari waktu ke waktu alih-alih hanya memutar ulang kenangan mentah, menghasilkan keuntungan besar (+15,3% di atas baseline yang kuat) dengan token yang jauh lebih sedikit!