Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Articolo eccezionale di NVIDIA.
Addestrare modelli di ragionamento di uso generale con RL è complicato.
I diversi domini hanno lunghezze di risposta e tempi di verifica estremamente diversi. La matematica utilizza una verifica simbolica veloce. Il codice richiede una verifica basata su esecuzione lenta. L'allineamento necessita di punteggi del modello di ricompensa.
Mescolare tutti questi prompt eterogenei rende l'infrastruttura complessa, rallenta l'addestramento e rende difficile la regolazione degli iperparametri.
Questa nuova ricerca introduce Cascade RL, un framework che addestra i modelli in modo sequenziale attraverso i domini piuttosto che mescolare tutto insieme. Prima RLHF per l'allineamento, poi RL per il seguire le istruzioni, poi RL per la matematica, poi RL per il codice, poi RL per l'ingegneria del software.
Questo approccio sequenziale è resistente all'oblio catastrofico. In RL, il modello genera la propria esperienza, quindi i comportamenti vecchi rimangono se rimangono rilevanti per la ricompensa. A differenza dell'apprendimento supervisionato, dove i dati precedenti scompaiono, RL ottimizza la ricompensa cumulativa piuttosto che adattarsi a obiettivi esatti.
RLHF, come passo preliminare, aumenta effettivamente la capacità di ragionamento ben oltre la semplice ottimizzazione delle preferenze riducendo la verbosità e la ripetizione. Le fasi successive di RL specifiche per dominio raramente degradano le prestazioni precedenti e possono persino migliorarle.
Ecco i risultati:
Il loro modello da 14B supera il proprio insegnante SFT, DeepSeek-R1-0528 (671B), su LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B raggiunge il 71,1% su LiveCodeBench v6, paragonabile a DeepSeek-R1-0528 al 73,3% nonostante sia 84 volte più piccolo. Il modello da 14B ha ottenuto prestazioni da medaglia d'argento all'IOI 2025.
Dimostrano anche che i modelli di ragionamento unificati possono operare efficacemente sia in modalità di pensiero che non di pensiero, colmando il divario con i modelli di pensiero dedicati mantenendo tutto in un unico modello.
Articolo:
Impara a costruire agenti AI efficaci nella nostra accademia:

Principali
Ranking
Preferiti
