🚀 Einführung von Nemotron-Cascade! 🚀 Wir freuen uns, Nemotron-Cascade vorzustellen, eine Familie von allgemeinen Denkmodellen, die mit kaskadierter, domänenspezifischer Verstärkungslernen (Cascade RL) trainiert wurden und eine erstklassige Leistung über eine Vielzahl von Benchmarks liefern. 💻 Programmierkraftwerk Nach RL übertrifft unser 14B-Modell: • DeepSeek-R1-0528 (671B) auf LiveCodeBench v5/v6/Pro. • Erreicht eine Silbermedaille bei IOI 2025 🥈. • Erreicht 43,1% pass@1 auf SWE-Bench Verified und 53,8% mit Testzeit-Skalierung. 🧠 Was ist Cascade RL? Anstatt heterogene Eingabeaufforderungen über verschiedene Domänen zu mischen, trainiert Cascade RL sequenziell, domäne für domäne, was die Ingenieurskomplexität reduziert, heterogene Verifizierungsverzögerungen mindert und domänenspezifische Lehrpläne sowie maßgeschneiderte Hyperparameteranpassungen ermöglicht. ✨ Wichtige Erkenntnis Die Verwendung von RLHF zur Ausrichtung als Vorstufe steigert das komplexe Denken erheblich – weit über die Präferenzoptimierung hinaus. Nachfolgende domänenspezifische RLVR-Phasen schädigen selten die Benchmark-Leistung, die in früheren Domänen erreicht wurde, und können sie sogar verbessern, wie in der folgenden Abbildung dargestellt. 🤗 Modelle & Trainingsdaten 🔥 👉 📄 Technischer Bericht mit detaillierten Trainings- und Datenrezepten 👉