المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
* يتحقق من chatgpt* تكلف هذه الورقة ~ 4.2 مليون دولار أمريكي (400 ألف جيجابايت 200 ساعة) - علم!
كان أغلى تشغيل لدينا هو 100 ألف ساعة GPU (نفس مقدار Deepseek-R1-zero ولكن على GB200s).
كانت إحدى النتائج هنا أنه بمجرد أن يكون لدينا خوارزمية RL قابلة للتطوير ، يصبح قياس حساب RL قابلا للتنبؤ به (على سبيل المثال ، قمنا بالاستقراء إلى حساب 3x ل 17Bx16 MoE من 16 ألف ساعة GPU إلى 50 ألف ساعة).
والآخر هو عند مقارنة الخوارزميات ، احتضان الدرس المرير (حاول التنبؤ بمدى نجاحه في التوسع مع الحوسبة باستخدام منحنى أداء معين ، بدلا من مجرد الأداء في حساب ثابت).
معظم الحيل الخوارزمية في طريقة RL القابلة للتطوير لا تغير أداء خط التقارب ، ولكن أشياء مثل حجم النموذج وطول السياق وحجم الدفعة والبيانات تفعل ذلك.
هناك بالطبع العديد من خيارات التصميم في RL ، لذلك لا نعتقد أن وصفة ScaleRL هي نهاية القصة.
الأفضل
المُتصدِّرة
التطبيقات المفضلة
