المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
بئسًا... تشرح هذه الورقة من معهد ماساتشوستس للتكنولوجيا بهدوء كيف يمكن للنماذج أن تعلم نفسها التفكير عندما تكون عالقة 🤯 تماما
الفكرة الأساسية بسيطة بشكل خادع:
المنطق يفشل لأن التعلم لا يملك شيئا يتمسك به.
عندما ينخفض معدل نجاح النموذج إلى ما يقرب من الصفر، يتوقف التعلم المعزز عن العمل. لا يوجد إشارة مكافأة. لا يوجد تدرج. لا يوجد تحسن. النموذج ليس "سيئا في التفكير" — بل هو محاصر خارج حدود التعلم.
تعيد هذه الورقة صياغة المشكلة.
بدلا من أن تسأل: "كيف نجعل النموذج يحل مشاكل أصعب؟"
يسألون: "كيف يخلق النموذج مشاكل يمكنه التعلم منها؟"
وهنا يأتي دور SOAR.
يقسم SOAR نموذجا واحدا مدربا مسبقا إلى دورين:
• طالب يحاول استهداف مسائل صعبة للغاية
• معلم يولد مسائل تدريبية جديدة للطالب
لكن القيد قاس.
المعلم لا يكافأ أبدا على الأسئلة الذكية أو التنوع أو الواقعية.
يكافأ فقط إذا تحسن أداء الطالب في مجموعة ثابتة من مشاكل التقييم الحقيقية.
لا يوجد تحسن؟ لا مكافأة.
هذا يغير الديناميكية تماما.
...

الأفضل
المُتصدِّرة
التطبيقات المفضلة
