📈 hiện đang trending trên alphaXiv "SkillRL: Phát triển các tác nhân thông qua Học Tăng cường Tăng cường Kỹ năng Đệ quy" SkillRL biến các quỹ đạo thử nghiệm và sai lầm lộn xộn của một tác nhân LLM thành một thư viện kỹ năng gọn gàng và có thể tìm kiếm, phát triển theo cách đệ quy trong quá trình Học Tăng cường Điều này cho phép tác nhân thực sự học các chiến lược có thể tái sử dụng theo thời gian thay vì chỉ phát lại những ký ức thô, mang lại những lợi ích lớn (+15,3% so với các cơ sở mạnh) với ít token hơn nhiều!