Fantastisk artikel från NVIDIA. Att träna allmänna resonemangsmodeller med RL är komplicerat. Olika domäner har väldigt olika svarstid och verifieringstider. Matematik använder snabb symbolisk verifiering. Kod kräver långsam exekveringsbaserad verifiering. Alignment behöver belöningsmodellpoäng. Att blanda ihop alla dessa heterogena prompts gör infrastrukturen komplex, saktar ner träningen och gör hyperparameterjustering svår. Denna nya forskning introducerar Cascade RL, ett ramverk som tränar modeller sekventiellt över domäner istället för att blanda ihop allt. Först RLHF för justering, sedan instruktionsföljande RL, sedan matematik-RL, sedan kod-RL, sedan mjukvaruutveckling RL. Denna sekventiella metod är resistent mot katastrofal glömska. I RL genererar modellen sin egen upplevelse, så gamla beteenden finns kvar om de förblir belöningsrelevanta. Till skillnad från övervakad inlärning, där tidigare data försvinner, optimerar RL den kumulativa belöningen snarare än att passa exakta mål. RLHF, som ett försteg, ökar faktiskt resonemangstund långt bortom ren preferensoptimering genom att minska ordrikedom och upprepning. Efterföljande domänspecifika RL-steg försämrar sällan tidigare prestanda och kan till och med förbättra den. Här är resultaten: Deras 14B-modell överträffar sin egen SFT-lärare, DeepSeek-R1-0528 (671B), på LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B uppnår 71,1 % på LiveCodeBench v6, jämförbart med DeepSeek-R1-0528 på 73,3 % trots att den är 84 gånger mindre. 14B-modellen uppnådde silvermedalj på IOI 2025. De visar också att enhetliga resonemangsmodeller kan fungera effektivt både i tänkande och icke-tänkande lägen, och minska gapet med dedikerade tänkande modeller samtidigt som allt hålls i en enda modell. Papper: Lär dig att bygga effektiva AI-agenter i vår akademi: