المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
بئسًا... تشرح هذه الورقة من معهد ماساتشوستس للتكنولوجيا بهدوء كيف يمكن للنماذج أن تعلم نفسها التفكير عندما تكون عالقة 🤯 تماما
الفكرة الأساسية بسيطة بشكل خادع:
المنطق يفشل لأن التعلم لا يملك شيئا يتمسك به.
عندما ينخفض معدل نجاح النموذج إلى ما يقرب من الصفر، يتوقف التعلم المعزز عن العمل. لا يوجد إشارة مكافأة. لا يوجد تدرج. لا يوجد تحسن. النموذج ليس "سيئا في التفكير" — بل هو محاصر خارج حدود التعلم.
تعيد هذه الورقة صياغة المشكلة.
بدلا من أن تسأل: "كيف نجعل النموذج يحل مشاكل أصعب؟"
يسألون: "كيف يخلق النموذج مشاكل يمكنه التعلم منها؟"
وهنا يأتي دور SOAR.
يقسم SOAR نموذجا واحدا مدربا مسبقا إلى دورين:
• طالب يحاول استهداف مسائل صعبة للغاية
• معلم يولد مسائل تدريبية جديدة للطالب
لكن القيد قاس.
المعلم لا يكافأ أبدا على الأسئلة الذكية أو التنوع أو الواقعية.
يكافأ فقط إذا تحسن أداء الطالب في مجموعة ثابتة من مشاكل التقييم الحقيقية.
لا يوجد تحسن؟ لا مكافأة.
هذا يغير الديناميكية تماما.
المعلم لا يحسن من أجل الجماليات أو الجدة.
إنه يحسن تقدم التعلم.
مع مرور الوقت، يكتشف المعلم شيئا عادة ما يبرمج البشر يدويا:
مشاكل متوسطة.
ليست نسخا محلولة من المهمة المستهدفة.
ليست نسخا مخففة.
لكن المشاكل التي تقع ضمن حدود قدرة الطالب الحالية — قريبة بما يكفي للتعلم منها، وبعيدة بما يكفي لتهم.
وهنا الجزء المفاجئ.
تلك المشاكل التي تم توليدها لا تحتاج إلى إجابات صحيحة.
ولا تحتاج حتى إلى حل المعلم.
ما يهم هو الهيكل.
إذا أجبر السؤال الطالب على التفكير في الاتجاه الصحيح، تظهر إشارة التدرج حتى بدون إشراف كامل. التعلم يحدث من خلال النضال، وليس من خلال التقليد.
لهذا السبب يعمل SOAR حيث يفشل التعلم المعزز المباشر.
بدلا من الاصطدام بمنحدر مكافأة، يصعد الطالب سلما ساعد في بنائه.
التجارب توضح هذا بشكل مؤلم.
في المعايير التي تبدأ فيها النماذج من الصفر المطلق — حرفيا 0 نجاح — الطرق القياسية تتوقف عن التوقف الثابت. مع SOAR، يبدأ الأداء في الارتفاع بشكل مطرد مع إعادة تشكيل المنهج حول المعرفة الداخلية للنموذج.
هذا تحول هادئ لكنه جذري.
عادة ما نعتقد أن التفكير محدود بحجم النموذج، أو مقياس البيانات، أو الحوسبة التدريبية.
تشير هذه الورقة إلى عنق زجاجة آخر تماما:
بيئات تعلم سيئة.
إذا استطاعت النماذج توليد خطوات خاصة بها، فإن العديد من "حدود التفكير" تتوقف عن كونها حدودا على الإطلاق.
لا يوجد هندسة معمارية جديدة.
لا تسميات بشرية إضافية.
لا نماذج أكبر.
فقط حوافز أفضل لكيفية تطور التعلم.
الدلالة المزعجة هي كالتالي:
ثبات التفكير ليس أساسيا.
إنها من صنع نفسها.
والطريق إلى الأمام لا يجبر النماذج على التفكير بعمق أكثر، بل هو تركهم يقررون ما الذي سيتعلمونه بعد ذلك.

22
الأفضل
المُتصدِّرة
التطبيقات المفضلة

