📈 الآن يتصدر الترند على alphaXiv "SkillRL: الوكلاء المتطورون عبر التعلم المعزز بالمهارات التكرارية" تحول SkillRL مسارات التجربة والخطأ الفوضوية لوكيل LLM إلى مكتبة مهارات مدمجة وقابلة للبحث تنمو بشكل متكرر خلال التعلم المعزز هذا يسمح للوكيل بتعلم استراتيجيات قابلة لإعادة الاستخدام مع مرور الوقت بدلا من مجرد إعادة لعب الذكريات الخام، مما يحقق مكاسب كبيرة (+15.3٪ مقارنة بالقواعد القوية) مع عدد أقل بكثير من الرموز!