🚀 Informe técnico de LongCat-Flash-Thinking-2601 – ¡Ya totalmente publicado! Perspectivas clave: 🌍 RL agente a gran escala (¡14 páginas de análisis profundos!) 🔹 Escalado de entornos: Un análisis detallado de nuestra pipeline automatizada que construye 10.000+ entornos ejecutables y verificables en 20+ dominios. 🔹 Infraestructura RL: Un marco DORA mejorado que soporta entrenamiento asíncrono con 32.000+ entornos concurrentes, abordando problemas de estabilidad en tareas de cola larga y altamente heterogéneas. 🛡️ Robustez en estado salvaje 🔹 Inyección de ruido: No más agentes de "invernadero". Analizamos sistemáticamente el ruido del mundo real (ruido del usuario/herramienta) e inyectamos directamente en el bucle de entrenamiento. 🔹 Curriculum RL: Una estrategia basada en el currículo que fortalece gradualmente el modelo frente a entornos desordenados e imperfectos. 🧠 Marco de Pensamiento Pesado 🔹 Razonamiento paralelo: Amplía la amplitud generando múltiples trayectorias de razonamiento independientes. 🔹 Resumen iterativo: Amplía la profundidad utilizando un modelo resumen para reflexionar y sintetizar trayectorias paralelas antes de tomar decisiones finales. 🔹 Memoria de contexto: Un módulo de memoria diseñado específicamente para mantener el razonamiento coherente a largo plazo. ⚡ Atención en zigzag 🔹 Diseño de conectividad en zigzag combinando MLA + SSA para reducir el cálculo y preservar el flujo global de información. 🔹 El cambio a mitad de entrenamiento a variantes dispersas produce una aceleración del 1,5× y soporta contextos de 1M de tokens, sentando las bases para futuros avances en razonamiento agentico de largo contexto. 🔹 Explora: 📊 Logra la SOTA entre Modelos de código abierto en los principales benchmarks agentes: búsqueda, uso de herramientas, razonamiento matemático y codificación. Si quieres más detalles, no dudes en consultar el informe técnico completo. • Papel: • Página web: • GitHub: • Abrazo en la cara: