Este artigo da equipe da LongCat aborda uma questão que está se tornando inevitável na pesquisa moderna em IA: por que modelos de raciocínio que parecem brilhantes em benchmarks ainda têm dificuldades quando são colocados em ambientes reais e bagunçados? Os autores apresentam o LongCat-Flash-Thinking-2601, um modelo de 560B parâmetros Mixture-of-Experts, projetado não apenas para pensar, mas para agir. A afirmação central é que o raciocínio agentico não surge apenas de uma cadeia de pensamento melhor. Ela surge da interação sustentada com ambientes, ferramentas, ruído e falhas. O movimento técnico é sutil, mas importante. Em vez de tratar o raciocínio como um problema estático de texto, o artigo o enquadra como um processo em ciclo fechado: observar → planejar → agir → receber feedback → revisar. Essa mudança força mudanças em todos os lugares: construção de dados, algoritmos de treinamento, infraestrutura e até mesmo comportamento em tempo de inferência. Uma contribuição importante é a escalabilidade ambiental. Em vez de depender de alguns benchmarks de agentes feitos à mão, os autores constroem um pipeline automatizado que gera mais de 10.000 ambientes executáveis em 20+ domínios. Cada ambiente é fundamentado em dependências reais de ferramentas, bancos de dados verificados e múltiplos caminhos de solução válidos. A dificuldade escala estruturalmente, não heurísticamente. O treinamento nesses ambientes normalmente desmoronaria sob o ruído. Portanto, o artigo modela explicitamente imperfeições do mundo real: instruções ambíguas, falhas de ferramentas, resultados parciais. O ruído não é tratado como um caso extremo. Está incorporado ao currículo, aumentando progressivamente em complexidade para que a robustez seja aprendida, não corrigida depois. Além disso, eles estendem o aprendizado por reforço assíncrono (DORA) para lidar com interações de cauda longa e múltiplas voltas em escala, mantendo o treinamento estável mesmo com dezenas de milhares de ambientes concorrentes. No momento da inferência, o modelo introduz o Modo de Pensamento Pesado. Em vez de uma longa cadeia de pensamento, ele percorre caminhos de raciocínio paralelos e depois os agrega por meio de uma segunda etapa reflexiva. Isso escala tanto a profundidade quanto a largura do raciocínio, e consistentemente supera a autoconsistência em tarefas complexas. Os resultados são impressionantes. LongCat-Flash-Thinking-2601 estabelece desempenho de ponta entre modelos open-source em benchmarks agentes como BrowseComp, τ²-Bench e VitaBench, enquanto permanece competitivo com modelos fechados em matemática, programação e busca. Mais importante ainda, o desempenho se deteriora muito menos em condições ruidosas. A implicação mais ampla é desconfortável, mas clara: a qualidade do raciocínio não é mais o gargalo. Generalização é. E a generalização vem dos ambientes, não dos prompts. Este artigo argumenta que, se queremos agentes que trabalhem fora das demonstrações, precisamos parar de treiná-los em mundos limpos e imaginários. A verdadeira inteligência é forjada onde as coisas quebram. Artigo: LongCat-Flash-Thinking-2601 Relatório Técnico