* يتحقق من chatgpt* تكلف هذه الورقة ~ 4.2 مليون دولار أمريكي (400 ألف جيجابايت 200 ساعة) - علم! كان أغلى تشغيل لدينا هو 100 ألف ساعة GPU (نفس مقدار Deepseek-R1-zero ولكن على GB200s). كانت إحدى النتائج هنا أنه بمجرد أن يكون لدينا خوارزمية RL قابلة للتطوير ، يصبح قياس حساب RL قابلا للتنبؤ به (على سبيل المثال ، قمنا بالاستقراء إلى حساب 3x ل 17Bx16 MoE من 16 ألف ساعة GPU إلى 50 ألف ساعة). والآخر هو عند مقارنة الخوارزميات ، احتضان الدرس المرير (حاول التنبؤ بمدى نجاحه في التوسع مع الحوسبة باستخدام منحنى أداء معين ، بدلا من مجرد الأداء في حساب ثابت). معظم الحيل الخوارزمية في طريقة RL القابلة للتطوير لا تغير أداء خط التقارب ، ولكن أشياء مثل حجم النموذج وطول السياق وحجم الدفعة والبيانات تفعل ذلك. هناك بالطبع العديد من خيارات التصميم في RL ، لذلك لا نعتقد أن وصفة ScaleRL هي نهاية القصة.