المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 نقدم لكم نيموترون-كاسكيد! 🚀
نحن متحمسون لإصدار Nemotron-Cascade، وهي مجموعة من نماذج التفكير العامة المدربة باستخدام التعلم المعزز المتدرج والمتدرج حسب المجال (Cascade RL)، التي تقدم أفضل أداء في فئته عبر مجموعة واسعة من المعايير.
💻 قوة البرمجة
بعد RL، نموذج 14B لدينا:
• تجاوز DeepSeek-R1-0528 (671B) على LiveCodeBench v5/v6/Pro.
• تحقيق أداء بالميدالية الفضية في IOI 2025 🥈.
• يصل إلى pass@1 43.1٪ في SWE-Bench Verified و53.8٪ مع مقياس وقت الاختبار.
🧠 ما هو كاسكيد RL؟
بدلا من خلط المحفزات غير المتجانسة عبر المجالات، يتدرب كاسكيد RL بشكل متسلسل، مجال بمجال، مما يقلل من تعقيد الهندسة، ويقلل من زمن الاستجابة غير المتجانسة، ويتيح مناهج خاصة بالمجالات وضبط المعاملات الفائقة المخصصة.
✨ رؤى رئيسية
استخدام RLHF للمحاذاة كخطوة مسبقة يعزز بشكل كبير التفكير المعقد—يتجاوز بكثير تحسين التفضيلات. نادرا ما تؤثر مراحل RLVR اللاحقة حسب المجالات على الأداء المعياري الذي تم تحقيقه في المجالات السابقة وقد تحسنه، كما هو موضح في الشكل التالي.
🤗 النماذج وبيانات 🔥 التدريب
👉
📄 تقرير فني يتضمن تدريبا مفصلة ووصفات بيانات
👉

الأفضل
المُتصدِّرة
التطبيقات المفضلة
