إليك ملخص Ritual Research Digest لهذا الأسبوع ، وهي نشرة إخبارية تغطي أحدث ما في عالم LLMs وتقاطع Crypto x الذكاء الاصطناعي. مع نشر مئات الصحف أسبوعيا ، من المستحيل البقاء على اطلاع دائم بالأحدث الصحف. نقوم بالقراءة حتى لا تضطر إلى ذلك.
Critique-RL: نماذج لغوية تدريبية للنقد من خلال التعلم المعزز على مرحلتين تهدف هذه الورقة إلى تطوير نماذج لغوية نقدية لا تعتمد على إشراف أقوى أو وظيفة مكافأة أوراكل أثناء الاختبار.
يقترحون Critique-RL ، وهو نهج RL من مرحلتين ، وهو نهج RL عبر الإنترنت يعتمد على تفاعل الممثل والناقد لتطوير نماذج النقد. تظهر التجارب المكثفة أن الطريقة تتفوق على خطوط الأساس ، مما يؤدي إلى أداء أفضل مع Qwen 2.5 7B.
PACR: مكافأة الثقة الصاعدة تدريجيا لمنطق ماجستير الماجستير يسأل هذا العمل عما إذا كان يمكن الحصول على الإشراف التدريجي من النموذج. يقدمون PACR ، وهي إشارة جوهرية كثيفة ونموذجية تحول نمو الثقة إلى إشراف تدريجي على RL.
وجدوا ، من بين أمور أخرى ، أن صعود الثقة المتسق يرتبط ارتباطا وثيقا بصحة الإجابة النهائية. عبر معايير التفكير المتعددة ، تعمل زيادة RLVR باستخدام طرق PACR على تحسين ديناميكيات التدريب والأداء النهائي.
نهاية فك التشفير اليدوي: نحو نماذج لغوية شاملة حقا تقترح هذه الورقة AutoDeco ، وهي بنية تنشئ LM "من طرف إلى طرف" قادر على التحكم في عملية فك التشفير الخاصة بها. إنها تزيد من المحول برؤوس التنبؤ.
يستخدم رؤساء AutoDeco الحالة المخفية الحالية للنموذج للتنبؤ بمعلمات أخذ العينات المثلى للرمز المميز التالي ديناميكيا. قاموا بإطلاق رؤوس AutoDeco ل Deepseek-V3.1-Terminus و Qwen3-235B-A22B-Thinking-2507 و GPT-OSS-120 والتحقق من صحتهم مع العديد من الطرز الأخرى.
توسيع نطاق التفكير الكامن عبر نماذج اللغة المتكررة تهدف هذه الورقة إلى استكشاف سلوك التوسع ل LoopLM في جوانب مختلفة. إنهم يطورون أهدافا جديدة لتدريب الحساب المتكرر الفعال مع الحفاظ على ذروة الأداء.
يقومون بتدريب نموذجين ، 1.4B و 2.6B معلمة LoopLMs على رموز 7.7T التي تتطابق مع أداء المحولات القياسية 4B و 8B عبر جميع المعايير تقريبا ، مما يحقق تحسينات في كفاءة المعلمات 2-3×. كما أنهم يستكشفون أسباب تحسين المحولات الحلقية.
أداة Decathlon: قياس وكلاء اللغة لتنفيذ المهام المتنوعة والواقعية والطويلة الأفق يقدم معيارا لتقييم وكلاء اللغة. يرتكز TOOLATHLON على سيناريوهات واقعية تتطلب تطبيقات متعددة.
يتطلب TOOLATHLON ، في المتوسط ، 4-6 ساعات من العمل من قبل طالب دراسات عليا باحث متخصص في علوم الكمبيوتر. تعمل Sonnet 4.5 و GPT-5 و Grok4 بشكل جيد. يلاحظون اختلافات كبيرة بين معدلات نجاح Pass@3 و Passˆ3 ، مما يشير إلى تغطية القدرات ولكن مشكلات الاتساق.
تابعنا @ritualdigest لمعرفة المزيد حول كل ما يتعلق بالبحث عن العملات المشفرة x الذكاء الاصطناعي ، و @ritualnet لمعرفة المزيد حول ما تبنيه Ritual.
‏‎3.91‏K