Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Przedstawiamy Nemotron-Cascade! 🚀
Z radością ogłaszamy wydanie Nemotron-Cascade, rodziny modeli ogólnego przeznaczenia do rozumowania, które zostały wytrenowane z wykorzystaniem kaskadowego, dziedzinowego uczenia przez wzmocnienie (Cascade RL), oferując najlepszą w swojej klasie wydajność w szerokim zakresie benchmarków.
💻 Potęga kodowania
Po RL, nasz model 14B:
• Przewyższa DeepSeek-R1-0528 (671B) w LiveCodeBench v5/v6/Pro.
• Osiąga srebrny medal na IOI 2025 🥈.
• Uzyskuje 43,1% pass@1 w SWE-Bench Verified, a 53,8% z skalowaniem w czasie testu.
🧠 Czym jest Cascade RL?
Zamiast mieszać heterogeniczne podpowiedzi w różnych dziedzinach, Cascade RL trenuje sekwencyjnie, dziedzina po dziedzinie, co redukuje złożoność inżynieryjną, łagodzi heterogeniczne opóźnienia w weryfikacji i umożliwia dostosowane programy nauczania oraz tuning hiperparametrów.
✨ Kluczowy wgląd
Użycie RLHF do dostosowania jako kroku wstępnego dramatycznie zwiększa złożone rozumowanie — znacznie wykraczając poza optymalizację preferencji. Kolejne etapy RLVR w poszczególnych dziedzinach rzadko szkodzą wydajności benchmarków osiągniętej w wcześniejszych dziedzinach i mogą ją nawet poprawić, co ilustruje poniższy rysunek.
🤗 Modele i dane treningowe 🔥
👉
📄 Raport techniczny z szczegółowymi przepisami na trening i dane
👉

Najlepsze
Ranking
Ulubione
