Muitas pessoas estão confusas com o recente retorno do Minimax à atenção total - especialmente porque foi o primeiro pivô em grande escala em direção à atenção linear híbrida - e com a adoção posterior de variantes lineares híbridas por Kimi (bem como tentativas anteriores de Qwen3-Next ou Qwen3.5). Na verdade, aprecio a abertura da Minimax aqui: eles admitiram os desafios e arrependimentos da atenção linear híbrida ou de janela deslizante em tarefas de raciocínio multi-hop, que poucos laboratórios diriam em voz alta. Dito isso, os "arrependimentos" podem não ser tão ruins quanto parecem. O Minimax usou uma variante de atenção linear muito simples (em grande parte devido à avaliação insuficiente na época), então a lacuna de desempenho provavelmente foi exagerada. A estratégia de pré-treinamento contínuo (ou seja, mudar da atenção global para a atenção híbrida da janela deslizante) também parecia bastante abaixo do ideal. E, afaik, a atenção linear híbrida ainda pode ter um desempenho muito forte em quase todos os benchmarks, exceto no raciocínio multi-hop. Se a queda de desempenho no raciocínio multi-hop puder ser mantida pequena o suficiente para ser negociada por melhor eficiência de inferência e eficiência de dados, a atenção linear híbrida ainda terá muito espaço para crescer. Ainda vale a pena explorar melhores camadas de complexidade linear, especialmente com a melhoria da infraestrutura de estruturas como vLLM e SGLang. Afinal, não queremos que nossos modelos agenciais sejam limitados para sempre pelo comprimento do contexto - essa é uma limitação que teremos que superar mais cedo ou mais tarde