إليك ملخص Ritual Research Digest لهذا الأسبوع ، وهي نشرة إخبارية تغطي أحدث ما في عالم LLMs وتقاطع Crypto x الذكاء الاصطناعي. مع نشر مئات الصحف أسبوعيا ، من المستحيل البقاء على اطلاع دائم بالأحدث الصحف. نقوم بالقراءة حتى لا تضطر إلى ذلك.
RLVE: توسيع نطاق التعلم المعزز لنماذج اللغة مع بيئات قابلة للتحقق التكيفية يقدم المؤلفون RLVE للتدريب بعد التدريب، حيث يستخدمون "بيئات قابلة للتكيف للتحقق من المشكلة" التي تولد مشاكل وفقا لمستوى مهارة النموذج.
تم اختبار طريقة RLVE من خلال تدريب OpenThinker3-1.5B باستخدام RLVE-Gym، وهو مجموعة من 400 بيئة تعلم مختلفة. التدريب مع RLVE أدى إلى تحسن بنسبة 3.37٪ في مهارات التفكير مع استخدام حوسبة أقل بمقدار 3 مرات.
جيد جدا ليكون سيئا: عن فشل نماذج اللغة الكبيرة في تمثيل الأشرار يكتشف هذا العمل أن نماذج الذكاء الاصطناعي المدربة على أن تكون مفيدة وآمنة هي بشكل ساخر "جيدة جدا" لتمثيل الأشرار. نماذج اللغة الكبيرة تتراجع في الأداء، وتواجه صعوبة في صفات مثل الخداع/التلاعب.
كما أن توافق السلامة الذي يجعل نماذج الذكاء الاصطناعي ترفض الطلبات الضارة يمنعها من محاكاة شخصيات معقدة أخلاقيا ضرورية لمهام مثل الكتابة الإبداعية، والألعاب، والعلوم الاجتماعية. كما قدموا معيار "التمثيل الأخلاقي" لاختبار نماذج اللغة الكبيرة.
SSR: التنقية الذاتية السقراطية لاستدلال نماذج اللغة الكبيرة يقدم هذا العمل SSR، الذي يساعد نماذج الذكاء الاصطناعي على تقييم التفكير من خلال تقسيم الإجابات إلى أجزاء أصغر، وتحديد الخطوات المحددة التي تكون غير مستقرة، وتصحيحها.
يقوم SSR بتقسيم استجابة النموذج إلى "خطوات سقراطية" أصغر، وهي مثل أزواج أسئلة فرعية/إجابة فرعية. هذا يسمح بإصلاح أخطاء محددة في سلسلة التفكير. عبر 5 معايير و3 نماذج كبيرة (LLMs)، يتفوق هذا النهج المستهدف على الطرق التي تصحح نفسها بشكل أعمى.
كفاءة SWE: هل يمكن لنماذج اللغة تحسين المستودعات الواقعية على أحمال العمل الحقيقية؟ يقدم هذا العمل معيارا لاختبار مدى كفاءة نماذج اللغة في تحسين الكود في مشاريع البرمجيات الواقعية. يتضمن 498 مهمة من مكتبات تعلم الآلة.
مع ذلك، يجب على نماذج المستودعات إيجاد اختناقات الأداء وإصلاحها. وجدوا أن أفضل نماذج الذكاء الاصطناعي اليوم تحقق أقل من 15٪ من التسرعات الاحترافية. النماذج تكافح لإيجاد الكود المناسب للتحسين، والتفكير في كيفية عمل الوظائف معا، والحفاظ على تعديلاتها خالية من الأخطاء.
تابعنا @ritualdigest لمعرفة المزيد حول كل ما يتعلق بالبحث عن العملات المشفرة x الذكاء الاصطناعي ، و @ritualnet لمعرفة المزيد حول ما تبنيه Ritual.
‏‎780‏