Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Présentation de Nemotron-Cascade ! 🚀
Nous sommes ravis de lancer Nemotron-Cascade, une famille de modèles de raisonnement à usage général entraînés avec un apprentissage par renforcement en cascade, spécifique au domaine (Cascade RL), offrant des performances de premier ordre sur une large gamme de benchmarks.
💻 Puissance de codage
Après l'apprentissage par renforcement, notre modèle de 14B :
• Surpasse DeepSeek-R1-0528 (671B) sur LiveCodeBench v5/v6/Pro.
• Atteint des performances de médaille d'argent à l'IOI 2025 🥈.
• Atteint un taux de réussite de 43,1 % à 1 sur SWE-Bench Vérifié, et 53,8 % avec l'échelle de temps de test.
🧠 Qu'est-ce que le Cascade RL ?
Au lieu de mélanger des invites hétérogènes à travers les domaines, le Cascade RL s'entraîne de manière séquentielle, domaine par domaine, ce qui réduit la complexité d'ingénierie, atténue les latences de vérification hétérogènes et permet des programmes spécifiques au domaine et un réglage des hyperparamètres sur mesure.
✨ Insight clé
Utiliser RLHF pour l'alignement comme étape préliminaire booste considérablement le raisonnement complexe—bien au-delà de l'optimisation des préférences. Les étapes ultérieures de RLVR spécifiques au domaine nuisent rarement aux performances de benchmark atteintes dans les domaines précédents et peuvent même les améliorer, comme illustré dans la figure suivante.
🤗 Modèles et données d'entraînement 🔥
👉
📄 Rapport technique avec des recettes détaillées d'entraînement et de données
👉

Meilleurs
Classement
Favoris
