المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
النموذج القوي يمكن أن يزداد سوءا في تعلم الأشياء الصعبة كلما زاد ثقته.. لأن إجاباته الخاطئة تدفع إلى أدنى لدرجة أن التدرجات تختفي فعليا
WMSS يقلب الحلقة: تدرب النموذج القوي على نقطة التحقق الأضعف السابقة الخاصة به، وليس فقط توقعاته الحالية
نقطة التحقق الضعيفة لا تزال تعطي احتمالا غير تافهه للإجابات المعقولة لكنها خاطئة.. التدريب على هذا التوزيع اللين يجبر النموذج القوي على الاستمرار في التمييز بين الصواب والشبه صحيح، بدلا من صقل ما يؤمن به بالفعل
الورقة تفيد بمكاسب كبيرة في الرياضيات + البرمجة، مع زيادة أكبر في المجموعات الأصعب.. لكن تم اختباره حول نطاق 4b إلى 8B، وليس مقياس Frontier (لذا لا أتعامل مع هذا كحل مستقر)
الدلالة التي لم تناقش كثيرا: كل مختبر جاد لديه بالفعل مقبرة من نقاط التفتيش الوسيطة من التجارب السابقة.. إذا كان التعلم الضعيف مدفوعا بثبات عند 70B+، تصبح نقاط التحقق "المهدرة" موردا تدريبيا تجلس عليه بالفعل
النماذج القوية تصل إلى مرحلة الثبات عندما تتوقف عن الشك في أنفسهم.. إحدى الطرق العملية قد تكون أن تجعلهم يتجادلون مع ذواتهم 👀 الماضية
رابط إلى الورقة: arxiv. org/abs/2602.08222

الأفضل
المُتصدِّرة
التطبيقات المفضلة
