🚨 NuRL: دفع حدود التفكير في LLM
يحسن GRPO منطق LLM ، ولكن غالبا داخل "منطقة الراحة" للنموذج: تظل العينات الصلبة (مع معدل نجاح 0٪) غير قابلة للحل وتساهم في عدم وجود إشارات تعليمية. في NuRL ، نوضح أن "دفع" LLM مع تلميحات ذاتية الإنشاء يوسع بشكل فعال مكاسب متسقة لمنطقة 👉التعلم للنموذج في pass@1 على 6 معايير مع 3 نماذج ويرفع pass@1024 المهام الصعبة!
الوجبات الرئيسية:
1⃣لا يمكن ل GRPO التعلم من المشكلات التي لا يحلها النموذج بشكل صحيح ، لكن NuRL يستخدم "تلميحات" ذاتية الإنشاء لجعل المشكلات الصعبة قابلة للتعلم
2⃣تعمل التلميحات المجردة عالية المستوى بشكل أفضل - فالكشف عن الكثير عن الإجابة يمكن أن يضر بالأداء بالفعل!
3⃣تعمل NuRL على تحسين الأداء عبر 6 معايير و 3 نماذج (+ 0.8-1.8٪ على GRPO) ، مع استخدام عدد أقل من عمليات الطرح أثناء التدريب
4⃣يعمل NuRL مع تلميحات يتم إنشاؤها ذاتيا (لا حاجة إلى نموذج خارجي) ويظهر مكاسب أكبر عند دمجها مع تحجيم وقت الاختبار
5⃣يرفع NuRL الحد الأعلى: يعزز pass@1024 بنسبة تصل إلى + 7.6٪ على مجموعات البيانات الصعبة (على سبيل المثال ، GPQA ، فهم التاريخ)
🧵