لطالما كان التعلم المعزز (RL) هو الطريقة السائدة للضبط الدقيق ، وتشغيل العديد من أحدث LLMs. تستكشف طرق مثل PPO و GRPO في مساحة العمل. ولكن هل يمكننا بدلا من ذلك الاستكشاف مباشرة في مساحة المعلمة؟ نعم نستطيع. نقترح إطارا قابلا للتطوير للضبط الدقيق للمعلمات بالكامل باستخدام استراتيجيات التطور (ES). من خلال تخطي التدرجات والتحسين مباشرة في مساحة المعلمة ، تحقق ES ضبطا دقيقا أكثر دقة وكفاءة واستقرارا. ورق: رمز: