Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA:n Banger-paperi.
Yleiskäyttöisten päättelymallien kouluttaminen RL:llä on monimutkaista.
Eri domaineilla on hyvin erilaiset vastausajat ja vahvistusajat. Matematiikka käyttää nopeaa symbolista vahvistusta. Koodi vaatii hidasta suoritukseen perustuvaa varmennusta. Alignment tarvitsee palkitsemismallin pisteet.
Kaikkien näiden heterogeenisten kehotteiden yhdistäminen tekee infrastruktuurista monimutkaisen, hidastaa koulutusta ja vaikeuttaa hyperparametrien säätöä.
Tämä uusi tutkimus esittelee Cascade RL:n, viitekehyksen, joka kouluttaa malleja peräkkäin eri domainien välillä sen sijaan, että kaikki sekoitettaisiin yhteen. Ensin RLHF kohdistusta, sitten ohjeiden mukainen RL, sitten matematiikan RL, sitten koodin RL, lopuksi ohjelmistosuunnittelun RL.
Tämä peräkkäinen lähestymistapa kestää katastrofaalisen unohtamisen. Oikeassa elämässä malli tuottaa oman kokemuksensa, joten vanhat käyttäytymismallit säilyvät, jos ne pysyvät palkitsemisen kannalta merkityksellisinä. Toisin kuin ohjattu oppiminen, jossa aiempi data katoaa, RL optimoi kumulatiivisen palkkion sen sijaan, että täyttäisi tarkat tavoitteet.
RLHF parantaa esivaiheena päättelykykyä paljon pidemmälle kuin pelkkä mieltymysten optimointi vähentämällä sanaaktiivisuutta ja toistoa. Myöhemmät alakohtaiset RL-vaiheet harvoin heikentävät aikaisempaa suorituskykyä ja voivat jopa parantaa sitä.
Tässä tulokset:
Heidän 14B-mallinsa päihittää oman SFT-opettajansa, DeepSeek-R1-0528 (671B), LiveCodeBench v5/v6/Pro:ssa. Nemotron-Cascade-8B saavuttaa 71,1 % LiveCodeBench v6:ssa, verrattavissa DeepSeek-R1-0528:aan 73,3 %, vaikka se on 84 kertaa pienempi. 14B-malli saavutti hopeamitalin IOI 2025 -kilpailussa.
Ne osoittavat myös, että yhtenäiset päättelymallit voivat toimia tehokkaasti sekä ajattelu- että ei-ajattelutiloissa, kaventaen eroa omistautuneilla ajattelumalleilla ja pitäen kaiken samassa mallissa.
Artikkeli:
Opi rakentamaan tehokkaita tekoälyagentteja akatemiassamme:

Johtavat
Rankkaus
Suosikit
