*prüft chatgpt* Dieses Papier kostet ~4,2 Millionen USD (400K GB200 Stunden) -- Wissenschaft! Unser teuerster Lauf war ein 100K GPU-Stunden (die gleiche Menge wie Deepseek-R1-zero, aber auf GB200s). Eine Erkenntnis hier war, dass, sobald wir einen skalierbaren RL-Algorithmus haben, die Skalierung der RL-Berechnungen vorhersehbar wird (z. B. extrapolierten wir auf 3x Berechnung für ein 17Bx16 MoE von 16k GPU-Stunden auf 50k Stunden). Die andere ist, wenn man Algorithmen vergleicht, die bittere Lektion anzunehmen (versuchen, vorherzusagen, wie gut es mit der Berechnung skalieren würde, basierend auf einer bestimmten Leistungskennlinie, anstatt nur die Leistung bei einer festen Berechnung zu betrachten). Die meisten algorithmischen Tricks in einer skalierbaren RL-Methode ändern nicht die asymptotische Leistung, aber Dinge wie Modellgröße, Kontextlänge, Batchgröße und Daten tun dies. Es gibt natürlich viele Designentscheidungen im RL, daher denken wir nicht, dass das ScaleRL-Rezept das Ende der Geschichte ist.