آخر ما كتبته من مدونة Tencent HY Research: جسر تطوير البنية التحتية والخوارزميات في LLM. 🚀   نحن نفتح المصدر GradLoc: أداة تشخيصية بصندوق أبيض تتبع ارتفاعات التدرج إلى الرمز المسبب بالضبط في وقت O(log N).   لم يعد تدرج RLVR مجرد معركة ضد ارتفاعات تدرج "الصندوق الأسود". الانتقال من التجربة والخطأ الاستدلالية إلى التشخيص الهندسي الحتمي.   المدونة: GitHub:
🔍 من الارتفاعات العالمية إلى الرموز الفردية   المراقبة العادية تخبرك فقط عندما يحدث ارتفاع مفاجئ في التدرج. GradLoc يخبرك أين. باستخدام البحث الثنائي الموزع، يعزل الرمز المحدد الذي يسبب الارتفاع مع عبء زائد مهمل ضئيل. إنه مصحح أخطاء "دائم التشغيل" لتدريب LLM.
💡 تم اكتشاف وضع الانهيار الجديد   ليس دائما "بيانات قذرة" أو "عدم تطابق في التدريب". كشف GradLoc عن تباين تدرج طبقات على طبقة: يمكن أن تحتوي الرموز على نسب "آمنة" لأخذ عينات الأهمية (IS) لكنها لا تزال تسبب انفجار طبقات معينة بينما تبقى طبقات أخرى مستقرة. القطع العالمي القياسي أداة غير واضحة جدا لهذا.
🛡️ الحل: LayerClip   لمعالجة التغاير التدرج طبقيا، نقترح قص التدرج الطبقي. بدلا من التثبيت العالمي الموحد، يطبق LayerClip قيودا تكيفية تعتمد على إحصائيات الطبقة المحلية. هذا التحكم الدقيق يثبت تدريب RLVR حيث تفشل الطرق القياسية.
🚀 الأعمال المستقبلية   يحتاج RLVR إلى ملاحظة هندسية أفضل لفهم وتحليل أعمق. نحن نفتح المصدر GradLoc لتقليل الحاجز أمام التشخيصات الدقيقة. نأمل أن يساعد هذا المجتمع على النظر داخل "الصندوق الأسود" الهندسي والتوجه نحو التحسين من المبادئ الأولى.
‏‎1.9‏K