Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Einführung von Nemotron-Cascade! 🚀
Wir freuen uns, Nemotron-Cascade vorzustellen, eine Familie von allgemeinen Denkmodellen, die mit kaskadierter, domänenspezifischer Verstärkungslernen (Cascade RL) trainiert wurden und eine erstklassige Leistung über eine Vielzahl von Benchmarks liefern.
💻 Programmierkraftwerk
Nach RL übertrifft unser 14B-Modell:
• DeepSeek-R1-0528 (671B) auf LiveCodeBench v5/v6/Pro.
• Erreicht eine Silbermedaille bei IOI 2025 🥈.
• Erreicht 43,1% pass@1 auf SWE-Bench Verified und 53,8% mit Testzeit-Skalierung.
🧠 Was ist Cascade RL?
Anstatt heterogene Eingabeaufforderungen über verschiedene Domänen zu mischen, trainiert Cascade RL sequenziell, domäne für domäne, was die Ingenieurskomplexität reduziert, heterogene Verifizierungsverzögerungen mindert und domänenspezifische Lehrpläne sowie maßgeschneiderte Hyperparameteranpassungen ermöglicht.
✨ Wichtige Erkenntnis
Die Verwendung von RLHF zur Ausrichtung als Vorstufe steigert das komplexe Denken erheblich – weit über die Präferenzoptimierung hinaus. Nachfolgende domänenspezifische RLVR-Phasen schädigen selten die Benchmark-Leistung, die in früheren Domänen erreicht wurde, und können sie sogar verbessern, wie in der folgenden Abbildung dargestellt.
🤗 Modelle & Trainingsdaten 🔥
👉
📄 Technischer Bericht mit detaillierten Trainings- und Datenrezepten
👉

Top
Ranking
Favoriten
