Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Muitas pessoas estão confusas com o recente retorno do Minimax à atenção total - especialmente porque foi o primeiro pivô em grande escala em direção à atenção linear híbrida - e com a adoção posterior de variantes lineares híbridas por Kimi (bem como tentativas anteriores de Qwen3-Next ou Qwen3.5). Na verdade, aprecio a abertura da Minimax aqui: eles admitiram os desafios e arrependimentos da atenção linear híbrida ou de janela deslizante em tarefas de raciocínio multi-hop, que poucos laboratórios diriam em voz alta.
Dito isso, os "arrependimentos" podem não ser tão ruins quanto parecem. O Minimax usou uma variante de atenção linear muito simples (em grande parte devido à avaliação insuficiente na época), então a lacuna de desempenho provavelmente foi exagerada. A estratégia de pré-treinamento contínuo (ou seja, mudar da atenção global para a atenção híbrida da janela deslizante) também parecia bastante abaixo do ideal. E, afaik, a atenção linear híbrida ainda pode ter um desempenho muito forte em quase todos os benchmarks, exceto no raciocínio multi-hop. Se a queda de desempenho no raciocínio multi-hop puder ser mantida pequena o suficiente para ser negociada por melhor eficiência de inferência e eficiência de dados, a atenção linear híbrida ainda terá muito espaço para crescer.
Ainda vale a pena explorar melhores camadas de complexidade linear, especialmente com a melhoria da infraestrutura de estruturas como vLLM e SGLang. Afinal, não queremos que nossos modelos agenciais sejam limitados para sempre pelo comprimento do contexto - essa é uma limitação que teremos que superar mais cedo ou mais tarde
Melhores
Classificação
Favoritos

