Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Introductie van Nemotron-Cascade! 🚀
We zijn verheugd om Nemotron-Cascade te lanceren, een familie van algemene redeneermodellen die zijn getraind met cascaded, domeinspecifieke reinforcement learning (Cascade RL), die de beste prestaties levert in een breed scala aan benchmarks.
💻 Codering krachtpatser
Na RL, ons 14B model:
• Overtreft DeepSeek-R1-0528 (671B) op LiveCodeBench v5/v6/Pro.
• Bereikt zilveren medaille prestaties op IOI 2025 🥈.
• Bereikt een 43,1% pass@1 op SWE-Bench Verified, en 53,8% met test-tijd schaling.
🧠 Wat is Cascade RL?
In plaats van heterogene prompts over domeinen te mengen, traint Cascade RL sequentieel, domein voor domein, wat de engineeringcomplexiteit vermindert, heterogene verificatie-latenties verlicht en domeinspecifieke curricula en op maat gemaakte hyperparameterafstemming mogelijk maakt.
✨ Belangrijk inzicht
Het gebruik van RLHF voor afstemming als een voorafgaande stap verhoogt de complexe redenering dramatisch—verre van voorkeuroptimalisatie. Latere domeinspecifieke RLVR-fases schaden zelden de benchmarkprestaties die in eerdere domeinen zijn behaald en kunnen deze zelfs verbeteren, zoals geïllustreerd in de volgende figuur.
🤗 Modellen & trainingsdata 🔥
👉
📄 Technisch rapport met gedetailleerde trainings- en datarecepten
👉

Boven
Positie
Favorieten
