Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Rapport Technique LongCat-Flash-Thinking-2601 – Maintenant entièrement publié !
Points clés :
🌍 RL agentique à grande échelle (14 pages d'analyses approfondies !)
🔹 Mise à l'échelle de l'environnement : Un aperçu détaillé de notre pipeline automatisé qui construit plus de 10 000 environnements exécutables et vérifiables dans plus de 20 domaines.
🔹 Infrastructure RL : Un cadre DORA amélioré qui prend en charge l'entraînement asynchrone avec plus de 32 000 environnements concurrents, s'attaquant aux problèmes de stabilité dans des tâches à longue traîne et hautement hétérogènes.
🛡️ Robustesse dans le monde réel
🔹 Injection de bruit : Fini les agents "greenhouse". Nous analysons systématiquement le bruit du monde réel (bruit utilisateur/outil) et l'injectons directement dans la boucle d'entraînement.
🔹 RL par curriculum : Une stratégie basée sur un curriculum qui renforce progressivement le modèle contre des environnements désordonnés et imparfaits.
🧠 Cadre de Heavy Thinking
🔹 Raisonnement parallèle : Élargit la portée en générant plusieurs trajectoires de raisonnement indépendantes.
🔹 Résumé itératif : Élargit la profondeur en utilisant un modèle de résumé pour réfléchir et synthétiser des trajectoires parallèles avant de prendre des décisions finales.
🔹 Mémoire contextuelle : Un module de mémoire conçu pour maintenir la cohérence du raisonnement sur de longues périodes.
⚡ Attention Zigzag
🔹 Conception de connectivité Zigzag combinant MLA + SSA pour réduire le calcul tout en préservant le flux d'informations global.
🔹 Changement en milieu d'entraînement vers des variantes éparses permettant un gain de vitesse de 1,5× et prenant en charge des contextes de 1M tokens — posant les bases pour de futures percées dans le raisonnement agentique à long contexte.
🔹 Explorer :
📊 Atteint SOTA parmi
les modèles open-source à travers des benchmarks clés agentiques : recherche, utilisation d'outils, raisonnement mathématique et codage.
Si vous souhaitez plus de détails, n'hésitez pas à consulter le rapport technique complet.
• Document :
• Site Web :
• GitHub :
• Hugging Face :




Meilleurs
Classement
Favoris
