Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Esittelemme Nemotron-Cascaden! 🚀
Olemme innoissamme voidessamme julkaista Nemotron-Cascaden, yleiskäyttöisten päättelymallien perheen, joka on koulutettu ketjutettuun, domain-kohtaiseen vahvistusoppimiseen (Cascade RL) ja tarjoaa luokkansa parhaan suorituskyvyn monilla eri benchmarkeilla.
💻 Koodausvoima
RL:n jälkeen 14B-mallimme:
• Ylittää DeepSeek-R1-0528 (671B) LiveCodeBench v5/v6/Pro -versiossa.
• Saavuttaa hopeamitalisuorituksen IOI 2025 🥈 -kilpailussa.
• Saavuttaa 43,1 %:n pass@1 SWE-Bench Verified -arvioinnissa ja 53,8 % testiajan skaalaamisessa.
🧠 Mikä on Cascade RL?
Sen sijaan, että sekoitettaisiin heterogeenisiä kehotuksia eri domaineissa, Cascade RL kouluttaa peräkkäin, toimialue kerrallaan, mikä vähentää insinööritason monimutkaisuutta, lieventää heterogeenisiä verifiointiviiveitä ja mahdollistaa alakohtaiset opetussuunnitelmat sekä räätälöidyt hyperparametrien viritykset.
✨ Keskeinen oivallus
RLHF:n käyttäminen kohdistukseen esivaiheena parantaa monimutkaista päättelyä dramaattisesti – paljon enemmän kuin mieltymyksen optimointia. Myöhemmät toimialakohtaiset RLVR-vaiheet harvoin heikentävät aiempien domainien saavutettua suorituskykyä ja voivat jopa parantaa sitä, kuten seuraavassa kuvassa on havainnollistettu.
🤗 Mallit ja koulutusdata 🔥
👉
📄 Tekninen raportti yksityiskohtaisella koulutuksella ja tietoresepteillä
👉

Johtavat
Rankkaus
Suosikit
