🚀 Przedstawiamy Nemotron-Cascade! 🚀 Z radością ogłaszamy wydanie Nemotron-Cascade, rodziny modeli ogólnego przeznaczenia do rozumowania, które zostały wytrenowane z wykorzystaniem kaskadowego, dziedzinowego uczenia przez wzmocnienie (Cascade RL), oferując najlepszą w swojej klasie wydajność w szerokim zakresie benchmarków. 💻 Potęga kodowania Po RL, nasz model 14B: • Przewyższa DeepSeek-R1-0528 (671B) w LiveCodeBench v5/v6/Pro. • Osiąga srebrny medal na IOI 2025 🥈. • Uzyskuje 43,1% pass@1 w SWE-Bench Verified, a 53,8% z skalowaniem w czasie testu. 🧠 Czym jest Cascade RL? Zamiast mieszać heterogeniczne podpowiedzi w różnych dziedzinach, Cascade RL trenuje sekwencyjnie, dziedzina po dziedzinie, co redukuje złożoność inżynieryjną, łagodzi heterogeniczne opóźnienia w weryfikacji i umożliwia dostosowane programy nauczania oraz tuning hiperparametrów. ✨ Kluczowy wgląd Użycie RLHF do dostosowania jako kroku wstępnego dramatycznie zwiększa złożone rozumowanie — znacznie wykraczając poza optymalizację preferencji. Kolejne etapy RLVR w poszczególnych dziedzinach rzadko szkodzą wydajności benchmarków osiągniętej w wcześniejszych dziedzinach i mogą ją nawet poprawić, co ilustruje poniższy rysunek. 🤗 Modele i dane treningowe 🔥 👉 📄 Raport techniczny z szczegółowymi przepisami na trening i dane 👉