المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
بئسًا... تشرح هذه الورقة من معهد ماساتشوستس للتكنولوجيا بهدوء كيف يمكن للنماذج أن تعلم نفسها التفكير عندما تكون عالقة 🤯 تماما
الفكرة الأساسية بسيطة بشكل خادع:
المنطق يفشل لأن التعلم لا يملك شيئا يتمسك به.
عندما ينخفض معدل نجاح النموذج إلى ما يقرب من الصفر، يتوقف التعلم المعزز عن العمل. لا يوجد إشارة مكافأة. لا يوجد تدرج. لا يوجد تحسن. النموذج ليس "سيئا في التفكير" — بل هو محاصر خارج حدود التعلم.
تعيد هذه الورقة صياغة المشكلة.
بدلا من أن تسأل: "كيف نجعل النموذج يحل مشاكل أصعب؟"
يسألون: "كيف يخلق النموذج مشاكل يمكنه التعلم منها؟"
وهنا يأتي دور SOAR.
يقسم SOAR نموذجا واحدا مدربا مسبقا إلى دورين:
• طالب يحاول استهداف مسائل صعبة للغاية
• معلم يولد مسائل تدريبية جديدة للطالب
لكن القيد قاس.
المعلم لا يكافأ أبدا على الأسئلة الذكية أو التنوع أو الواقعية.
يكافأ فقط إذا تحسن أداء الطالب في مجموعة ثابتة من مشاكل التقييم الحقيقية.
لا يوجد تحسن؟ لا مكافأة.
هذا يغير الديناميكية تماما.
المعلم لا يحسن من أجل الجماليات أو الجدة.
إنه يحسن تقدم التعلم.
مع مرور الوقت، يكتشف المعلم شيئا عادة ما يبرمج البشر يدويا:
مشاكل متوسطة.
ليست نسخا محلولة من المهمة المستهدفة.
ليست نسخا مخففة.
لكن المشاكل التي تقع ضمن حدود قدرة الطالب الحالية — قريبة بما يكفي للتعلم منها، وبعيدة بما يكفي لتهم.
وهنا الجزء المفاجئ.
تلك المشاكل التي تم توليدها لا تحتاج إلى إجابات صحيحة.
ولا تحتاج حتى إلى حل المعلم.
ما يهم هو الهيكل.
إذا أجبر السؤال الطالب على التفكير في الاتجاه الصحيح، تظهر إشارة التدرج حتى بدون إشراف كامل. التعلم يحدث من خلال النضال، وليس من خلال التقليد.
لهذا السبب يعمل SOAR حيث يفشل التعلم المعزز المباشر.
بدلا من الاصطدام بمنحدر مكافأة، يصعد الطالب سلما ساعد في بنائه.
التجارب توضح هذا بشكل مؤلم.
في المعايير التي تبدأ فيها النماذج من الصفر المطلق — حرفيا 0 نجاح — الطرق القياسية تتوقف عن التوقف الثابت. مع SOAR، يبدأ الأداء في الارتفاع بشكل مطرد مع إعادة تشكيل المنهج حول المعرفة الداخلية للنموذج.
هذا تحول هادئ لكنه جذري.
عادة ما نعتقد أن التفكير محدود بحجم النموذج، أو مقياس البيانات، أو الحوسبة التدريبية.
تشير هذه الورقة إلى عنق زجاجة آخر تماما:
بيئات تعلم سيئة.
إذا استطاعت النماذج توليد خطوات خاصة بها، فإن العديد من "حدود التفكير" تتوقف عن كونها حدودا على الإطلاق.
لا يوجد هندسة معمارية جديدة.
لا تسميات بشرية إضافية.
لا نماذج أكبر.
فقط حوافز أفضل لكيفية تطور التعلم.
الدلالة المزعجة هي كالتالي:
ثبات التفكير ليس أساسيا.
إنها من صنع نفسها.
والطريق إلى الأمام لا يجبر النماذج على التفكير بعمق أكثر، بل هو تركهم يقررون ما الذي سيتعلمونه بعد ذلك.

2
بئسًا... ستانفورد أظهرت فقط لماذا تبدو نماذج اللغة الكبيرة ذكية لكنها تفشل في اللحظة التي تعارض فيها الواقع.
تتناول هذه الورقة نمط فشل قاس رآه كل من يبني وكلاء: إعطاء النموذج مهمة غير محددة بشكل كاف فيهلوس الأجزاء المفقودة بسعادة، وينتج خطة تبدو سلسة وتنهار عند التنفيذ.
الفهم الأساسي بسيط لكنه مدمر بالنسبة للطرق التي تعتمد فقط على الطلبات: ينكسر التفكير عندما تكون الشروط المسبقة غير معروفة. ومعظم المهام الواقعية مليئة بالمجهولات.
حل ستانفورد يسمى التخطيط التصنيفي ثنائي الاتجاه ذاتي الاستعلام (SQ-BCP)، ويجبر النماذج على التوقف عن التظاهر بأنهم يعرفون أشياء لا يعرفونها.
بدلا من افتراض وجود حقائق مفقودة، يتتبع كل فعل شروطه المسبقة صراحة كما يلي:
• راض
• انتهاك
• غير معروف
المجهول هو المفتاح. عندما يصل النموذج إلى نقطة مجهولة، لا يسمح له بالتقدم.
يجب أن يكون إما:
1. اطرح سؤالا مستهدفا لحل الحقيقة المفقودة
أو
2. اقتراح إجراء جسر يحدد الشرط أولا (قياس، فحص، تحضير، إلخ)
فقط بعد حل جميع الشروط المسبقة يمكن أن تستمر الخطة.
لكن هنا يكمن الاختراق الحقيقي: الخطط لا تقبل لأنها تبدو قريبة من الهدف.
يتم قبولهم فقط إذا اجتازوا خطوة التحقق الرسمية باستخدام فحوصات السحب النظرية للفئة. تستخدم درجات التشابه فقط للترتيب، وليس للدقة.
الترجمة: الخطط الجميلة لا تحتسب. الخطط القابلة للتنفيذ تفعل ذلك.
النتائج مذهلة.
حول مهام WikiHow وRecipeNLG مع القيود المخفية:
• انخفضت انتهاكات الموارد من 26٪ → 14.9٪
• و15.7٪ → 5.8٪
مع الحفاظ على درجات تنافسية في الجودة.
البحث الإضافي لم يساعد.
سلسلة التفكير الأطول لم تساعد.
حتى السؤال الذاتي وحده لا يزال يفتقد القيود.
ما نجح فعليا هو التعامل مع عدم اليقين ككائن من الدرجة الأولى ورفض المضي قدما حتى يتم حله.
ترسم هذه الورقة بهدوء خطا في الرمال:
فشل الوكلاء ليس متعلقا بحجم الطراز.
هي عن التظاهر بأن المعلومات غير المكتملة مكتملة.
إذا كنت تريد وكلاء يمثلون فقط، وليس فقط يروون، فهذا هو الاتجاه المستقبلي.

60
الأفضل
المُتصدِّرة
التطبيقات المفضلة
