متحمس لمشاركة أبحاثنا الأخيرة حول تقنية AutoJudge، وهي تقنية فك الترميز تجمع بين: - تسريع الاستدلال عبر تخفيف قيد مطابقة التوزيع - سهولة الاستخدام وقابلية التوسع بفضل بروتوكول التدريب الذاتي الإشراف سأقدم في #NeurIPS2025 اليوم! (1/9)
نجد أنه يمكننا استخراج التسميات لمصنف القبول تلقائيا. على وجه التحديد، نأخذ مجموعة بيانات وندير النماذج المستهدفة ومسودة النماذج الجديدة. ثم نتحقق من جميع الرموز غير المتطابقة بين نماذج الهدف والمسودة. إذا أدى الاحتفاظ بالرمز من نموذج المسودة إلى إجابة خاطئة، يتم تصنيفه كمهم (3/9)
باستخدام هذه التسميات، يمكننا تدريب مصنف بسيط لإيجاد رموز مهمة في وقت الاستدلال. إذا كان فك الترميز الافتراضي الأصلي سيرفض رمزا، نعطيه فرصة ثانية بسؤال المصنف. بالنسبة للرموز غير المهمة، نستمر في التوليد، لكن للرموز الأخرى نبدأ دورة مضاربية جديدة (9/4)
تركز تقييماتنا الرئيسية ل AutoJudge على المهام التي يسهل قياس صحة إجاباتها — البرمجة (LiveCodeBench) والرياضيات (GSM8K). مع أزواج النماذج مثل 8B/70B، يمكننا تحقيق ما يصل إلى 40 رمزا مقبولا في كل دورة مع انخفاض في الدقة بنسبة <1٪! (5/9)
كما يتكامل AutoJudge بسهولة مع أطر الاستدلال مفتوحة المصدر مثل vLLM. تحسينات معدل القبول تترجم إلى تسريع من البداية إلى النهاية: إذا تنازلنا بنسبة 2٪ من الدقة، نحصل على ما يقرب من 50٪ أكثر من الرموز في الثانية! (6/9)
فحص التعليقات للرموز المهمة يكشف عن نمط غريب: الأخطاء الواضحة تضع علامة على عينات سالبة (=> تحتاج إلى إعادة التجديد)، بينما تسمح الرموز المكافئة دلاليا باستمرار التكهنات (7/9)
لمعرفة المزيد، اطلع على: ورق: رمز: منشور مدونة: التفعيلات المحسوبة مسبقا ل GSM8K و LiveCodeBench: (8/9)
قاد هذا العمل زملائي الرائعون @garipovroma @MightyNeighbour، إيفان إرماكوف، روسلان سفيرشيفسكي، وفاغي إيجيازاريان. الفريق في سان دييغو لحضور NeurIPS هذا الأسبوع — تعالوا وألقوا مرحبا اليوم في جلسة الملصقات! 4:30 مساء، الملصق #2010 (9/9)
‏‎2.51‏K