Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
*перевіряє chatGPT* Цей папір коштує ~4,2 мільйона доларів США (400 тисяч GB200 годин) -- наука!
Наш найдорожчий пробіг становив 100 Кбайт годин графічного процесора (стільки ж, скільки у Deepseek-R1-zero, але на GB200s).
Одним із висновків тут було те, що як тільки ми маємо масштабований алгоритм RL, масштабування RL-обчислень стає передбачуваним (наприклад, ми екстраполювали на 3x обчислення для MoE 17Bx16 від 16 тисяч годин GPU до 50 тисяч годин).
Інший - порівнюючи алгоритми, прийміть гіркий урок (спробуйте передбачити, наскільки добре він буде масштабуватися з обчисленнями, використовуючи задану криву продуктивності, а не просто продуктивність при фіксованому обчисленні).
Більшість алгоритмічних трюків у масштабованому методі RL не змінюють продуктивність асимптоти, але такі речі, як розмір моделі, довжина контексту, розмір партії та дані, змінюють.
Звичайно, в RL є багато варіантів дизайну, тому ми не думаємо, що рецепт ScaleRL - це кінець історії.
Найкращі
Рейтинг
Вибране
