Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Představujeme Nemotron-Cascade! 🚀
S nadšením uvádíme Nemotron-Cascade, rodinu obecných modelů uvažování trénovaných pomocí kaskádového doménového posilovacího učení (Cascade RL), které přinášejí špičkový výkon v široké škále benchmarků.
💻 Programátorská síla
Po RL náš model 14B:
• Překonává DeepSeek-R1-0528 (671B) na LiveCodeBench v5/v6/Pro.
• Dosaženo stříbrné medaile na IOI 2025 🥈.
• Dosahuje 43,1 % pass@1 na SWE-Bench Verified a 53,8 % na škálování podle testovacího času.
🧠 Co je Cascade RL?
Místo míchání heterogenních promptů napříč doménami trénuje Cascade RL sekvenčně, doména po doméně, což snižuje složitost inženýrství, zmírňuje heterogenní latence ověřování a umožňuje doménově specifické osnovy a přizpůsobené ladění hyperparametrů.
✨ Klíčový poznatek
Použití RLHF pro zarovnání jako předkrok výrazně zvyšuje složité uvažování – daleko za hranice optimalizace preferencí. Následující úrovně RLVR podle domén jen zřídka poškodí výkon benchmarku dosažený v dřívějších doménách a mohou jej dokonce zlepšit, jak je znázorněno na následujícím obrázku.
🤗 Modely a tréninková data 🔥
👉
📄 Technická zpráva s podrobnými trénačními a datovými recepty
👉

Top
Hodnocení
Oblíbené
