Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Caramba... Este artigo explica silenciosamente por que a maioria dos modelos de “raciocínio” desmorona no momento em que você os desconecta de benchmarks limpos e os coloca no mundo real.
A equipe do LongCat aborda uma questão que o campo continua a evitar: se os modelos de hoje são tão bons em raciocinar, por que ainda falham em comportamentos básicos de agente uma vez que as ferramentas falham, as instruções ficam confusas ou os ambientes reagem?
A resposta deles é desconfortável. O raciocínio não falha porque as cadeias de pensamento são muito curtas. Ele falha porque treinamos o pensamento sem consequências.
O artigo apresenta o LongCat-Flash-Thinking-2601, um modelo Mixture-of-Experts de 560B parâmetros construído em torno de uma ideia simples, mas radical: o raciocínio só se torna confiável quando é forçado a agir, observar falhas e se adaptar dentro de ambientes reais.
Em vez de tratar o raciocínio como geração de texto, eles o enquadram como um loop:
observar → planejar → agir → obter feedback → revisar.
Essa mudança reverbera em todos os lugares. Os dados não são mais prompts estáticos. O treinamento não é mais trajetórias limpas. A avaliação não é mais respostas de uma única tentativa.
Uma das contribuições mais importantes é a escalabilidade do ambiente. Os autores geram automaticamente mais de 10.000 ambientes executáveis em mais de 20 domínios, cada um fundamentado em ferramentas reais, bancos de dados reais e múltiplos caminhos de solução válidos. A dificuldade aumenta estruturalmente, não por truques de prompt inteligentes.
Crucialmente, eles não sanitizam o mundo. Falhas de ferramentas, instruções ambíguas, saídas parciais e feedback ruidoso são deliberadamente injetados. O ruído não é um bug. É o currículo.
Para manter o treinamento estável nessa escala, eles estendem o RL assíncrono (DORA) para lidar com interações de longo prazo e múltiplas turnos com dezenas de milhares de ambientes concorrentes sem colapsar.
No momento da inferência, eles introduzem o Modo de Pensamento Pesado. Em vez de uma longa cadeia de pensamento, o modelo executa caminhos de raciocínio paralelos e depois reflete sobre eles antes de agir. Isso consistentemente supera a auto-consistência em tarefas complexas e agentivas.
Os resultados falam alto. Desempenho de ponta no BrowseComp, τ²-Bench e VitaBench. Resultados fortes em matemática, codificação e busca. E, mais importante, muito menos degradação em condições ruidosas.
A verdadeira lição é mais aguda do que qualquer número de benchmark:
A qualidade do raciocínio não é mais o gargalo.
A generalização é.
E a generalização não vem de melhores prompts ou pensamentos mais longos. Ela vem de ambientes que reagem....

Top
Classificação
Favoritos
