Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Presentiamo Nemotron-Cascade! 🚀
Siamo entusiasti di lanciare Nemotron-Cascade, una famiglia di modelli di ragionamento di uso generale addestrati con l'apprendimento per rinforzo a cascata, specifico per dominio (Cascade RL), che offre prestazioni di prim'ordine su una vasta gamma di benchmark.
💻 Potenza di codifica
Dopo l'RL, il nostro modello da 14B:
• Supera DeepSeek-R1-0528 (671B) su LiveCodeBench v5/v6/Pro.
• Raggiunge prestazioni da medaglia d'argento all'IOI 2025 🥈.
• Ottiene un 43.1% di pass@1 su SWE-Bench Verified, e un 53.8% con scaling al momento del test.
🧠 Cos'è il Cascade RL?
Invece di mescolare prompt eterogenei tra i domini, il Cascade RL si allena in modo sequenziale, dominio per dominio, il che riduce la complessità ingegneristica, mitiga le latenze di verifica eterogenee e consente curricula specifici per dominio e una sintonizzazione iperparametrica su misura.
✨ Insight chiave
Utilizzare RLHF per l'allineamento come passo preliminare aumenta notevolmente il ragionamento complesso—ben oltre l'ottimizzazione delle preferenze. Le successive fasi di RLVR specifiche per dominio raramente danneggiano le prestazioni benchmark ottenute nei domini precedenti e possono persino migliorarle, come illustrato nella figura seguente.
🤗 Modelli e dati di addestramento 🔥
👉
📄 Rapporto tecnico con ricette dettagliate di addestramento e dati
👉

Principali
Ranking
Preferiti
