Este artículo del equipo de LongCat aborda una pregunta que se está volviendo inevitable en la investigación moderna de IA: ¿por qué los modelos de razonamiento que parecen brillantes en los benchmarks aún luchan cuando se les coloca en entornos reales y desordenados? Los autores presentan LongCat-Flash-Thinking-2601, un modelo Mixture-of-Experts de 560B parámetros diseñado no solo para pensar, sino para actuar. La afirmación central es que el razonamiento agente no surge solo de una mejor cadena de pensamiento. Surge de la interacción sostenida con entornos, herramientas, ruido y fracaso. El movimiento técnico es sutil pero importante. En lugar de tratar el razonamiento como un problema de texto estático, el artículo lo enmarca como un proceso de bucle cerrado: observar → planificar → actuar → recibir retroalimentación → revisar. Ese cambio obliga a realizar modificaciones en todas partes: construcción de datos, algoritmos de entrenamiento, infraestructura e incluso comportamiento en el momento de la inferencia. Una contribución importante es la escalabilidad del entorno. En lugar de depender de unos pocos benchmarks de agentes hechos a mano, los autores construyen una tubería automatizada que genera más de 10,000 entornos ejecutables en más de 20 dominios. Cada entorno está fundamentado en dependencias de herramientas reales, bases de datos verificadas y múltiples caminos de solución válidos. La dificultad se escala estructuralmente, no heurísticamente. Entrenar en estos entornos normalmente colapsaría bajo el ruido. Por lo tanto, el artículo modela explícitamente las imperfecciones del mundo real: instrucciones ambiguas, fallos de herramientas, salidas parciales. El ruido no se trata como un caso extremo. Está integrado en el currículo, aumentando progresivamente en complejidad para que la robustez se aprenda, no se parchee más tarde. Además de esto, extienden el aprendizaje por refuerzo asincrónico (DORA) para manejar interacciones de múltiples turnos y de cola larga a gran escala, manteniendo el entrenamiento estable incluso con decenas de miles de entornos concurrentes. En el momento de la inferencia, el modelo introduce el Modo de Pensamiento Pesado. En lugar de una larga cadena de pensamiento, ejecuta caminos de razonamiento paralelos y luego los agrega a través de una etapa reflexiva secundaria. Esto escala tanto la profundidad como la amplitud del razonamiento, y supera consistentemente la auto-consistencia en tareas complejas. Los resultados son sorprendentes. LongCat-Flash-Thinking-2601 establece un rendimiento de vanguardia entre los modelos de código abierto en benchmarks agentes como BrowseComp, τ²-Bench y VitaBench, mientras sigue siendo competitivo con modelos cerrados en matemáticas, codificación y búsqueda. Más importante aún, el rendimiento se degrada mucho menos en condiciones ruidosas. La implicación más amplia es incómoda pero clara: la calidad del razonamiento ya no es el cuello de botella. La generalización lo es. Y la generalización proviene de los entornos, no de los prompts. Este artículo argumenta que si queremos agentes que funcionen fuera de las demostraciones, tenemos que dejar de entrenarlos en mundos limpios e imaginarios. La inteligencia real se forja donde las cosas se rompen. Artículo: Informe Técnico de LongCat-Flash-Thinking-2601