🚀 Relatório Técnico LongCat-Flash-Thinking-2601 – Agora Totalmente Lançado! Principais insights: 🌍 RL agente em grande escala (14 páginas de análises profundas!) 🔹 Escalonamento de ambientes: Uma análise detalhada do nosso pipeline automatizado que constrói 10.000+ ambientes executáveis e verificáveis em 20+ domínios. 🔹 Infraestrutura RL: Um framework DORA atualizado que suporta treinamento assíncrono com 32.000+ ambientes concorrentes, enfrentando problemas de estabilidade em tarefas long-tail e altamente heterogêneas. 🛡️ Robustez na natureza 🔹 Injeção de ruído: Chega de agentes "estufa". Analisamos sistematicamente ruídos do mundo real (ruído do usuário/ferramenta) e o injetamos diretamente no ciclo de treinamento. 🔹 Curriculum RL: Uma estratégia baseada em currículo que fortalece gradualmente o modelo contra ambientes bagunçados e imperfeitos. 🧠 Estrutura de Pensamento Pesado 🔹 Raciocínio paralelo: Expande a amplitude ao gerar múltiplas trajetórias de raciocínio independentes. 🔹 Sumarização iterativa: Expande a profundidade usando um modelo de resumo para refletir e sintetizar trajetórias paralelas antes de tomar decisões finais. 🔹 Memória de contexto: Um módulo de memória construído para propósito para manter o raciocínio coerente ao longo de longos horizontes. ⚡ Atenção em ziguezague 🔹 Projeto de conectividade em ziguezague combinando MLA + SSA para reduzir o cálculo enquanto preserva o fluxo global de informações. 🔹 A mudança no meio do treinamento para variantes esparsas gera um aumento de aceleração de 1,5× e suporta contextos de 1M-token — estabelecendo as bases para futuros avanços em raciocínio agential de longo contexto. 🔹 Explore: 📊 Alcança a SOTA entre modelos de código aberto em benchmarks agentes-chave: busca, uso de ferramentas, raciocínio matemático e programação. Se quiser mais detalhes, fique à vontade para conferir o relatório técnico completo. • Papel: • Site: • GitHub: • Abraços no rosto: