Ce document de l'équipe LongCat aborde une question qui devient inévitable dans la recherche moderne sur l'IA : pourquoi les modèles de raisonnement qui semblent brillants sur les benchmarks ont-ils encore du mal lorsqu'ils sont plongés dans des environnements réels et désordonnés ? Les auteurs introduisent LongCat-Flash-Thinking-2601, un modèle Mixture-of-Experts de 560 milliards de paramètres conçu non seulement pour penser, mais pour agir. L'affirmation centrale est que le raisonnement agentique n'émerge pas simplement d'une meilleure chaîne de pensée. Il émerge d'une interaction soutenue avec des environnements, des outils, du bruit et des échecs. Le mouvement technique est subtil mais important. Au lieu de traiter le raisonnement comme un problème statique de texte, le document le cadre comme un processus en boucle fermée : observer → planifier → agir → recevoir des retours → réviser. Ce changement impose des modifications partout : construction de données, algorithmes d'entraînement, infrastructure, et même comportement en temps d'inférence. Une contribution majeure est l'échelle de l'environnement. Plutôt que de s'appuyer sur quelques benchmarks d'agents faits à la main, les auteurs construisent un pipeline automatisé qui génère plus de 10 000 environnements exécutables dans plus de 20 domaines. Chaque environnement est ancré dans de réelles dépendances d'outils, des bases de données vérifiées et plusieurs chemins de solution valides. La difficulté évolue structurellement, et non heuristiquement. L'entraînement dans ces environnements s'effondrerait normalement sous le bruit. Ainsi, le document modélise explicitement les imperfections du monde réel : instructions ambiguës, pannes d'outils, sorties partielles. Le bruit n'est pas traité comme un cas marginal. Il est intégré dans le programme, augmentant progressivement en complexité afin que la robustesse soit apprise, et non corrigée plus tard. En plus de cela, ils étendent l'apprentissage par renforcement asynchrone (DORA) pour gérer des interactions à long terme et à queue longue à grande échelle, maintenant l'entraînement stable même avec des dizaines de milliers d'environnements concurrents. Au moment de l'inférence, le modèle introduit le Mode de Pensée Lourde. Au lieu d'une longue chaîne de pensée, il exécute des chemins de raisonnement parallèles, puis les agrège à travers une étape réflexive secondaire. Cela augmente à la fois la profondeur et la largeur du raisonnement, et bat systématiquement la cohérence interne sur des tâches complexes. Les résultats sont frappants. LongCat-Flash-Thinking-2601 établit des performances de pointe parmi les modèles open-source sur des benchmarks agentiques comme BrowseComp, τ²-Bench et VitaBench, tout en restant compétitif avec des modèles fermés sur les mathématiques, la programmation et la recherche. Plus important encore, les performances se dégradent beaucoup moins dans des conditions bruyantes. L'implication plus large est inconfortable mais claire : la qualité du raisonnement n'est plus le goulot d'étranglement. La généralisation l'est. Et la généralisation provient des environnements, pas des invites. Ce document soutient que si nous voulons des agents qui fonctionnent en dehors des démonstrations, nous devons cesser de les entraîner dans des mondes propres et imaginaires. La véritable intelligence se forge là où les choses se cassent. Document : Rapport Technique LongCat-Flash-Thinking-2601