🚀 Relatório Técnico LongCat-Flash-Thinking-2601 – Agora Totalmente Liberado! Principais insights: 🌍 RL agentic em larga escala (14 páginas de análises profundas!) 🔹 Escalonamento de ambiente: Um olhar detalhado sobre nosso pipeline automatizado que constrói mais de 10.000 ambientes executáveis e verificáveis em mais de 20 domínios. 🔹 Infraestrutura de RL: Um framework DORA atualizado que suporta treinamento assíncrono com mais de 32.000 ambientes concorrentes, enfrentando problemas de estabilidade em tarefas de cauda longa e altamente heterogêneas. 🛡️ Robustez no mundo real 🔹 Injeção de ruído: Chega de agentes "greenhouse". Analisamos sistematicamente o ruído do mundo real (ruído de usuário/ferramenta) e o injetamos diretamente no loop de treinamento. 🔹 RL baseado em currículo: Uma estratégia baseada em currículo que gradualmente fortalece o modelo contra ambientes bagunçados e imperfeitos. 🧠 Framework Heavy Thinking 🔹 Raciocínio paralelo: Expande a amplitude gerando múltiplas trajetórias de raciocínio independentes. 🔹 Resumo iterativo: Expande a profundidade usando um modelo de resumo para refletir e sintetizar trajetórias paralelas antes de tomar decisões finais. 🔹 Memória de contexto: Um módulo de memória projetado para manter o raciocínio coerente ao longo de longos horizontes. ⚡ Atenção Zigzag 🔹 Design de Conectividade Zigzag combinando MLA + SSA para reduzir o cálculo enquanto preserva o fluxo de informação global. 🔹 Mudança durante o treinamento para variantes esparsas resulta em um aumento de 1,5× na velocidade e suporta contextos de 1M tokens — preparando o terreno para futuras inovações no raciocínio agentic de longo contexto. 🔹 Explore: 📊 Alcança SOTA entre modelos de código aberto em benchmarks chave agentic: busca, uso de ferramentas, raciocínio matemático e codificação. Se você quiser mais detalhes, sinta-se à vontade para conferir o relatório técnico completo. • Artigo: • Website: • GitHub: • Hugging Face: