Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Świetny artykuł od NVIDIA.
Szkolenie modeli ogólnego rozumowania z użyciem RL jest skomplikowane.
Różne dziedziny mają skrajnie różne długości odpowiedzi i czasy weryfikacji. Matematyka korzysta z szybkiej weryfikacji symbolicznej. Kod wymaga wolnej weryfikacji opartej na wykonaniu. Dopasowanie potrzebuje wyników modelu nagród.
Łączenie wszystkich tych heterogenicznych podpowiedzi razem sprawia, że infrastruktura jest skomplikowana, spowalnia szkolenie i utrudnia dostosowywanie hiperparametrów.
To nowe badanie wprowadza Cascade RL, ramy, które szkolą modele sekwencyjnie w różnych dziedzinach, zamiast mieszać wszystko razem. Najpierw RLHF dla dopasowania, potem RL do podążania za instrukcjami, następnie RL matematyczne, potem RL kodu, a na końcu RL inżynierii oprogramowania.
To sekwencyjne podejście jest odporne na katastrofalne zapominanie. W RL model generuje własne doświadczenie, więc stare zachowania pozostają, jeśli są nadal istotne dla nagrody. W przeciwieństwie do uczenia nadzorowanego, gdzie wcześniejsze dane znikają, RL optymalizuje skumulowaną nagrodę, a nie dopasowuje się do dokładnych celów.
RLHF, jako krok wstępny, faktycznie zwiększa zdolność rozumowania znacznie ponad zwykłą optymalizację preferencji, redukując rozwlekłość i powtórzenia. Kolejne etapy RL specyficzne dla dziedziny rzadko pogarszają wcześniejsze wyniki i mogą je nawet poprawić.
Oto wyniki:
Ich model 14B przewyższa własnego nauczyciela SFT, DeepSeek-R1-0528 (671B), w LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B osiąga 71,1% w LiveCodeBench v6, porównywalnie do DeepSeek-R1-0528, który ma 73,3%, mimo że jest 84 razy mniejszy. Model 14B osiągnął srebrny medal na IOI 2025.
Pokazują również, że zjednoczone modele rozumowania mogą skutecznie działać zarówno w trybie myślenia, jak i niemymślenia, zmniejszając różnicę z dedykowanymi modelami myślenia, jednocześnie utrzymując wszystko w jednym modelu.
Artykuł:
Naucz się budować skuteczne AI Agenty w naszej akademii:

Najlepsze
Ranking
Ulubione
