🚀 Rapport Technique LongCat-Flash-Thinking-2601 – Maintenant entièrement publié ! Points clés : 🌍 RL agentique à grande échelle (14 pages d'analyses approfondies !) 🔹 Mise à l'échelle de l'environnement : Un aperçu détaillé de notre pipeline automatisé qui construit plus de 10 000 environnements exécutables et vérifiables dans plus de 20 domaines. 🔹 Infrastructure RL : Un cadre DORA amélioré qui prend en charge l'entraînement asynchrone avec plus de 32 000 environnements concurrents, s'attaquant aux problèmes de stabilité dans des tâches à longue traîne et hautement hétérogènes. 🛡️ Robustesse dans le monde réel 🔹 Injection de bruit : Fini les agents "greenhouse". Nous analysons systématiquement le bruit du monde réel (bruit utilisateur/outil) et l'injectons directement dans la boucle d'entraînement. 🔹 RL par curriculum : Une stratégie basée sur un curriculum qui renforce progressivement le modèle contre des environnements désordonnés et imparfaits. 🧠 Cadre de Heavy Thinking 🔹 Raisonnement parallèle : Élargit la portée en générant plusieurs trajectoires de raisonnement indépendantes. 🔹 Résumé itératif : Élargit la profondeur en utilisant un modèle de résumé pour réfléchir et synthétiser des trajectoires parallèles avant de prendre des décisions finales. 🔹 Mémoire contextuelle : Un module de mémoire conçu pour maintenir la cohérence du raisonnement sur de longues périodes. ⚡ Attention Zigzag 🔹 Conception de connectivité Zigzag combinant MLA + SSA pour réduire le calcul tout en préservant le flux d'informations global. 🔹 Changement en milieu d'entraînement vers des variantes éparses permettant un gain de vitesse de 1,5× et prenant en charge des contextes de 1M tokens — posant les bases pour de futures percées dans le raisonnement agentique à long contexte. 🔹 Explorer : 📊 Atteint SOTA parmi les modèles open-source à travers des benchmarks clés agentiques : recherche, utilisation d'outils, raisonnement mathématique et codage. Si vous souhaitez plus de détails, n'hésitez pas à consulter le rapport technique complet. • Document : • Site Web : • GitHub : • Hugging Face :