*cek chatgpt* Makalah ini berharga ~4,2 juta USD (400K GB200 jam) -- sains! Perjalanan kami yang paling mahal adalah jam GPU 100K (jumlah yang sama dengan Deepseek-R1-zero tetapi pada GB200). Satu temuan di sini adalah bahwa begitu kita memiliki algoritma RL yang dapat diskalakan, penskalaan komputasi RL menjadi dapat diprediksi (misalnya, kita mengekstrapolasi ke komputasi 3x untuk MoE 17Bx16 dari 16k GPU Hours menjadi 50k jam). Yang lainnya adalah ketika membandingkan algoritme, rangkullah pelajaran pahit (cobalah untuk memprediksi seberapa baik skala dengan komputasi menggunakan kurva kinerja tertentu, bukan hanya kinerja pada komputasi tetap). Sebagian besar trik algoritmik dalam metode RL yang dapat diskalakan tidak mengubah performa asymptote, tetapi hal-hal seperti ukuran model, panjang konteks, ukuran batch, dan data melakukannya. Tentu saja ada banyak pilihan desain di RL, jadi kami tidak berpikir bahwa resep ScaleRL adalah akhir dari cerita.