*перевіряє chatGPT* Цей папір коштує ~4,2 мільйона доларів США (400 тисяч GB200 годин) -- наука! Наш найдорожчий пробіг становив 100 Кбайт годин графічного процесора (стільки ж, скільки у Deepseek-R1-zero, але на GB200s). Одним із висновків тут було те, що як тільки ми маємо масштабований алгоритм RL, масштабування RL-обчислень стає передбачуваним (наприклад, ми екстраполювали на 3x обчислення для MoE 17Bx16 від 16 тисяч годин GPU до 50 тисяч годин). Інший - порівнюючи алгоритми, прийміть гіркий урок (спробуйте передбачити, наскільки добре він буде масштабуватися з обчисленнями, використовуючи задану криву продуктивності, а не просто продуктивність при фіксованому обчисленні). Більшість алгоритмічних трюків у масштабованому методі RL не змінюють продуктивність асимптоти, але такі речі, як розмір моделі, довжина контексту, розмір партії та дані, змінюють. Звичайно, в RL є багато варіантів дизайну, тому ми не думаємо, що рецепт ScaleRL - це кінець історії.