DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

🚀 Présentation de Nemotron-Cascade ! 🚀 Nous sommes ravis de lancer Nemotron-Cascade, une famille de modèles de raisonnement à usage général entraînés avec un apprentissage par renforcement en cascade, spécifique au domaine (Cascade RL), offrant des performances de premier ordre sur une large gamme de benchmarks. 💻 Puissance de codage Après l'apprentissage par renforcement, notre modèle de 14B : • Surpasse DeepSeek-R1-0528 (671B) sur LiveCodeBench v5/v6/Pro. • Atteint des performances de médaille d'argent à l'IOI 2025 🥈. • Atteint un taux de réussite de 43,1 % à 1 sur SWE-Bench Vérifié, et 53,8 % avec l'échelle de temps de test. 🧠 Qu'est-ce que le Cascade RL ? Au lieu de mélanger des invites hétérogènes à travers les domaines, le Cascade RL s'entraîne de manière séquentielle, domaine par domaine, ce qui réduit la complexité d'ingénierie, atténue les latences de vérification hétérogènes et permet des programmes spécifiques au domaine et un réglage des hyperparamètres sur mesure. ✨ Insight clé Utiliser RLHF pour l'alignement comme étape préliminaire booste considérablement le raisonnement complexe—bien au-delà de l'optimisation des préférences. Les étapes ultérieures de RLVR spécifiques au domaine nuisent rarement aux performances de benchmark atteintes dans les domaines précédents et peuvent même les améliorer, comme illustré dans la figure suivante. 🤗 Modèles et données d'entraînement 🔥 👉 📄 Rapport technique avec des recettes détaillées d'entraînement et de données 👉

Meilleurs

Classement

Favoris