Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artículo del equipo de LongCat aborda una cuestión que se está volviendo inevitable en la investigación moderna en IA: ¿por qué los modelos de razonamiento que lucen brillantes en benchmarks siguen teniendo dificultades cuando se colocan en entornos reales y caóticos?
Los autores presentan LongCat-Flash-Thinking-2601, un modelo de mezcla de expertos con 560B parámetros diseñado no solo para pensar, sino para actuar. La afirmación central es que el razonamiento agente no surge solo de una mejor cadena de pensamiento. Surge de la interacción sostenida con los entornos, herramientas, ruido y fallo.
El movimiento técnico es sutil pero importante. En lugar de tratar el razonamiento como un problema estático de texto, el artículo lo enmarca como un proceso de bucle cerrado: observar → planificar → actuar → recibir retroalimentación → revisar.
Ese cambio fuerza a cambios en todas partes: construcción de datos, algoritmos de entrenamiento, infraestructura e incluso comportamiento en tiempo de inferencia.
Una contribución importante es la escalada ambiental. En lugar de depender de unos pocos benchmarks artesanales de agentes, los autores construyen una pipeline automatizada que genera más de 10.000 entornos ejecutables en 20+ dominios. Cada entorno se basa en dependencias reales de herramientas, bases de datos verificadas y múltiples rutas válidas de solución. La dificultad escala estructuralmente, no heurísticamente.
El entrenamiento en estos entornos normalmente colapsaría bajo el ruido. Así que el artículo modela explícitamente imperfecciones del mundo real: instrucciones ambiguas, fallos de herramientas, salidas parciales.
El ruido no se considera un caso límite. Está integrado en el currículo, aumentando progresivamente en complejidad para que la robustez se aprenda, no se parchee después.
Además, extienden el aprendizaje por refuerzo asíncrono (DORA) para manejar interacciones de cola larga y múltiples vueltas a gran escala, manteniendo el entrenamiento estable incluso con decenas de miles de entornos concurrentes.
En el momento de la inferencia, el modelo introduce el Modo de Pensamiento Pesado. En lugar de una larga cadena de pensamiento, recorre caminos de razonamiento paralelos y luego los agrega a través de una etapa reflexiva secundaria. Esto escala tanto la profundidad como la amplitud del razonamiento, y supera consistentemente la autocoherencia en tareas complejas.
Los resultados son impactantes. LongCat-Flash-Thinking-2601 establece un rendimiento de última generación entre modelos de código abierto en benchmarks agentes como BrowseComp, τ²-Bench y VitaBench, mientras sigue siendo competitivo con modelos cerrados en matemáticas, programación y búsqueda.
Más importante aún, el rendimiento se degrada mucho menos en condiciones ruidosas.
La implicación más amplia es incómoda pero clara: la calidad del razonamiento ya no es el cuello de botella. La generalización lo es. Y la generalización viene de los entornos, no de los prompts.
Este artículo sostiene que si queremos agentes que trabajen fuera de las demostraciones, tenemos que dejar de entrenarlos en mundos limpios e imaginarios. La verdadera inteligencia se forja donde las cosas se rompen.
Artículo: Informe técnico LongCat-Flash-Thinking-2601

Populares
Ranking
Favoritas
