🚀 Informe Técnico de LongCat-Flash-Thinking-2601 – ¡Ahora completamente liberado! Perspectivas clave: 🌍 RL agentic a gran escala (¡14 páginas de análisis profundos!) 🔹 Escalado del entorno: Una mirada detallada a nuestra tubería automatizada que construye más de 10,000 entornos ejecutables y verificables en más de 20 dominios. 🔹 Infraestructura de RL: Un marco DORA mejorado que soporta entrenamiento asíncrono con más de 32,000 entornos concurrentes, abordando problemas de estabilidad en tareas de cola larga y altamente heterogéneas. 🛡️ Robustez en el mundo real 🔹 Inyección de ruido: No más agentes "invernadero". Analizamos sistemáticamente el ruido del mundo real (ruido de usuario/herramienta) e inyectamos directamente en el bucle de entrenamiento. 🔹 RL curricular: Una estrategia basada en un currículo que endurece gradualmente el modelo contra entornos desordenados e imperfectos. 🧠 Marco de Pensamiento Pesado 🔹 Razonamiento paralelo: Expande la amplitud generando múltiples trayectorias de razonamiento independientes. 🔹 Resumen iterativo: Expande la profundidad utilizando un modelo de resumen para reflexionar y sintetizar trayectorias paralelas antes de tomar decisiones finales. 🔹 Memoria contextual: Un módulo de memoria diseñado específicamente para mantener el razonamiento coherente a lo largo de horizontes largos. ⚡ Atención Zigzag 🔹 Diseño de Conectividad Zigzag que combina MLA + SSA para reducir el cómputo mientras se preserva el flujo de información global. 🔹 Cambio a variantes dispersas durante el entrenamiento medio produce una aceleración de 1.5× y soporta contextos de 1M tokens — sentando las bases para futuros avances en el razonamiento agentic de largo contexto. 🔹 Explorar: 📊 Logra SOTA entre modelos de código abierto en benchmarks clave agentic: búsqueda, uso de herramientas, razonamiento matemático y codificación. Si deseas más detalles, no dudes en consultar el informe técnico completo. • Documento: • Sitio web: • GitHub: • Hugging Face: