Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Imponerende artikkel fra NVIDIA.
Å trene generelle resonnementsmodeller med RL er komplisert.
Ulike domener har svært forskjellige svarlengder og verifiseringstider. Matematikk bruker rask symbolsk verifisering. Kode krever langsom verifisering basert på utførelse. Justering trenger belønningsmodellscorer.
Å blande alle disse heterogene promptene sammen gjør infrastrukturen kompleks, senker treningen og gjør hyperparameterjustering vanskelig.
Denne nye forskningen introduserer Cascade RL, et rammeverk som trener modeller sekvensielt på tvers av domener i stedet for å blande alt sammen. Først RLHF for justering, så instruksjonsfølgende RL, så matematikk RL, så kode-RL, så programvareutvikling RL.
Denne sekvensielle tilnærmingen er motstandsdyktig mot katastrofal glemsel. I RL genererer modellen sin egen opplevelse, så gamle atferder forblir hvis de forblir belønningsrelevante. I motsetning til overvåket læring, hvor tidligere data forsvinner, optimaliserer RL kumulativ belønning i stedet for å tilpasse eksakte mål.
RLHF, som et fortrinn, øker faktisk resonnementet langt utover ren preferanseoptimalisering ved å redusere ordrikdom og gjentakelse. Påfølgende domenespesifikke RL-trinn forringer sjelden tidligere ytelse og kan til og med forbedre den.
Her er resultatene:
Deres 14B-modell overgår sin egen SFT-lærer, DeepSeek-R1-0528 (671B), på LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B oppnår 71,1 % på LiveCodeBench v6, sammenlignbart med DeepSeek-R1-0528 på 73,3 % til tross for at den er 84 ganger mindre. 14B-modellen oppnådde sølvmedalje på IOI 2025.
De viser også at enhetlige resonnementsmodeller kan fungere effektivt både i tenkende og ikke-tenkende moduser, og tette gapet med dedikerte tenkemodeller samtidig som alt holdes i én modell.
Artikkel:
Lær å bygge effektive AI-agenter i vår akademi:

Topp
Rangering
Favoritter
