Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Papír od NVIDIA.
Trénování obecných modelů uvažování pomocí RL je složité.
Různé domény mají velmi odlišné délky odezvy a doby ověření. Matematika používá rychlou symbolickou verifikaci. Kód vyžaduje pomalé ověřování na základě vykonání. Alignment potřebuje odměnové modelové skóre.
Kombinování všech těchto heterogenních promptů dohromady činí infrastrukturu složitou, zpomaluje trénink a ztěžuje ladění hyperparametrů.
Tento nový výzkum představuje Cascade RL, framework, který trénuje modely sekvenčně napříč doménami, místo aby vše míchal dohromady. Nejprve RLHF pro zarovnání, pak RL s následováním instrukcí, pak RL s matematikou, pak RL kódu a nakonec RL softwarového inženýrství.
Tento sekvenční přístup je odolný vůči katastrofálnímu zapomínání. V reálném životě model generuje vlastní zkušenost, takže staré chování zůstává, pokud zůstane relevantní pro odměny. Na rozdíl od řízeného učení, kde předchozí data mizí, RL optimalizuje kumulativní odměnu místo toho, aby přesně odpovídala cílům.
RLHF jako předběžný krok ve skutečnosti zvyšuje schopnost uvažování daleko za hranice pouhé optimalizace preferencí tím, že snižuje rozvláčnost a opakování. Následující doménově specifické RL fáze zřídka zhoršují dřívější výkon a mohou jej dokonce zlepšit.
Zde jsou výsledky:
Jejich model 14B překonává svého vlastního SFT učitele DeepSeek-R1-0528 (671B) na LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B dosahuje 71,1 % na LiveCodeBench v6, což je srovnatelné s DeepSeek-R1-0528 s 73,3 %, přestože je 84x menší. Model 14B získal stříbrnou medaili na IOI 2025.
Také ukazují, že modely sjednoceného uvažování mohou efektivně fungovat jak v myšlenkových, tak v nemyslících režimech, čímž se prodlužují propast s dedikovanými modely myšlení, přičemž vše zůstává v jednom modelu.
Článek:
Naučte se vytvářet efektivní AI agenty v naší akademii:

Top
Hodnocení
Oblíbené
