DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

🚀 Presentiamo Nemotron-Cascade! 🚀 Siamo entusiasti di lanciare Nemotron-Cascade, una famiglia di modelli di ragionamento di uso generale addestrati con l'apprendimento per rinforzo a cascata, specifico per dominio (Cascade RL), che offre prestazioni di prim'ordine su una vasta gamma di benchmark. 💻 Potenza di codifica Dopo l'RL, il nostro modello da 14B: • Supera DeepSeek-R1-0528 (671B) su LiveCodeBench v5/v6/Pro. • Raggiunge prestazioni da medaglia d'argento all'IOI 2025 🥈. • Ottiene un 43.1% di pass@1 su SWE-Bench Verified, e un 53.8% con scaling al momento del test. 🧠 Cos'è il Cascade RL? Invece di mescolare prompt eterogenei tra i domini, il Cascade RL si allena in modo sequenziale, dominio per dominio, il che riduce la complessità ingegneristica, mitiga le latenze di verifica eterogenee e consente curricula specifici per dominio e una sintonizzazione iperparametrica su misura. ✨ Insight chiave Utilizzare RLHF per l'allineamento come passo preliminare aumenta notevolmente il ragionamento complesso—ben oltre l'ottimizzazione delle preferenze. Le successive fasi di RLVR specifiche per dominio raramente danneggiano le prestazioni benchmark ottenute nei domini precedenti e possono persino migliorarle, come illustrato nella figura seguente. 🤗 Modelli e dati di addestramento 🔥 👉 📄 Rapporto tecnico con ricette dettagliate di addestramento e dati 👉

Principali

Ranking

Preferiti