Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

A Alibaba enviou quatro modelos pequenos Qwen 3.5 com um truque emprestado do seu modelo 397B: atenção híbrida Gated DeltaNet. Três camadas de atenção linear para cada uma camada de atenção total. As camadas lineares lidam com cálculos rotineiros com uso constante de memória. As camadas de atenção total disparam apenas quando a precisão importa. Essa proporção de 3:1 mantém a memória estável enquanto a qualidade permanece alta, razão pela qual até o modelo de 0.8B suporta uma janela de contexto de 262.000 tokens. Cada modelo lida com texto, imagens e vídeo de forma nativa. Sem adaptador instalado posteriormente. O codificador de visão utiliza convoluções 3D para capturar movimento em vídeo, e depois mescla características de várias camadas em vez de apenas da final. O 9B supera o GPT-5-Nano em 13 pontos na compreensão multimodal, 17 pontos em matemática visual e 30 pontos na análise de documentos. O 0.8B funciona em um telefone e processa vídeo. O 4B cabe em 8GB de VRAM e atua como um agente multimodal. Todos os quatro são Apache 2.0. Se esta arquitetura se mantiver, o espaço dos modelos pequenos acaba de se tornar uma corrida de capacidades em vez de uma corrida de tamanhos. Um ano atrás, executar um modelo multimodal localmente significava um modelo de 13B+ e uma GPU séria. Agora, um modelo de 4B com 262K de contexto lida com texto, imagens e vídeo a partir de hardware de consumo. A diferença entre modelos de borda e modelos de destaque está se fechando mais rápido do que a diferença entre os modelos de destaque e os humanos.

Top

Classificação

Favoritos