🚀 Esittelemme Nemotron-Cascaden! 🚀 Olemme innoissamme voidessamme julkaista Nemotron-Cascaden, yleiskäyttöisten päättelymallien perheen, joka on koulutettu ketjutettuun, domain-kohtaiseen vahvistusoppimiseen (Cascade RL) ja tarjoaa luokkansa parhaan suorituskyvyn monilla eri benchmarkeilla. 💻 Koodausvoima RL:n jälkeen 14B-mallimme: • Ylittää DeepSeek-R1-0528 (671B) LiveCodeBench v5/v6/Pro -versiossa. • Saavuttaa hopeamitalisuorituksen IOI 2025 🥈 -kilpailussa. • Saavuttaa 43,1 %:n pass@1 SWE-Bench Verified -arvioinnissa ja 53,8 % testiajan skaalaamisessa. 🧠 Mikä on Cascade RL? Sen sijaan, että sekoitettaisiin heterogeenisiä kehotuksia eri domaineissa, Cascade RL kouluttaa peräkkäin, toimialue kerrallaan, mikä vähentää insinööritason monimutkaisuutta, lieventää heterogeenisiä verifiointiviiveitä ja mahdollistaa alakohtaiset opetussuunnitelmat sekä räätälöidyt hyperparametrien viritykset. ✨ Keskeinen oivallus RLHF:n käyttäminen kohdistukseen esivaiheena parantaa monimutkaista päättelyä dramaattisesti – paljon enemmän kuin mieltymyksen optimointia. Myöhemmät toimialakohtaiset RLVR-vaiheet harvoin heikentävät aiempien domainien saavutettua suorituskykyä ja voivat jopa parantaa sitä, kuten seuraavassa kuvassa on havainnollistettu. 🤗 Mallit ja koulutusdata 🔥 👉 📄 Tekninen raportti yksityiskohtaisella koulutuksella ja tietoresepteillä 👉