Świetny artykuł od NVIDIA. Szkolenie modeli ogólnego rozumowania z użyciem RL jest skomplikowane. Różne dziedziny mają skrajnie różne długości odpowiedzi i czasy weryfikacji. Matematyka korzysta z szybkiej weryfikacji symbolicznej. Kod wymaga wolnej weryfikacji opartej na wykonaniu. Dopasowanie potrzebuje wyników modelu nagród. Łączenie wszystkich tych heterogenicznych podpowiedzi razem sprawia, że infrastruktura jest skomplikowana, spowalnia szkolenie i utrudnia dostosowywanie hiperparametrów. To nowe badanie wprowadza Cascade RL, ramy, które szkolą modele sekwencyjnie w różnych dziedzinach, zamiast mieszać wszystko razem. Najpierw RLHF dla dopasowania, potem RL do podążania za instrukcjami, następnie RL matematyczne, potem RL kodu, a na końcu RL inżynierii oprogramowania. To sekwencyjne podejście jest odporne na katastrofalne zapominanie. W RL model generuje własne doświadczenie, więc stare zachowania pozostają, jeśli są nadal istotne dla nagrody. W przeciwieństwie do uczenia nadzorowanego, gdzie wcześniejsze dane znikają, RL optymalizuje skumulowaną nagrodę, a nie dopasowuje się do dokładnych celów. RLHF, jako krok wstępny, faktycznie zwiększa zdolność rozumowania znacznie ponad zwykłą optymalizację preferencji, redukując rozwlekłość i powtórzenia. Kolejne etapy RL specyficzne dla dziedziny rzadko pogarszają wcześniejsze wyniki i mogą je nawet poprawić. Oto wyniki: Ich model 14B przewyższa własnego nauczyciela SFT, DeepSeek-R1-0528 (671B), w LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B osiąga 71,1% w LiveCodeBench v6, porównywalnie do DeepSeek-R1-0528, który ma 73,3%, mimo że jest 84 razy mniejszy. Model 14B osiągnął srebrny medal na IOI 2025. Pokazują również, że zjednoczone modele rozumowania mogą skutecznie działać zarówno w trybie myślenia, jak i niemymślenia, zmniejszając różnicę z dedykowanymi modelami myślenia, jednocześnie utrzymując wszystko w jednym modelu. Artykuł: Naucz się budować skuteczne AI Agenty w naszej akademii: