Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A NVIDIA acaba de lançar um artigo que pode resolver o maior compromisso nos LLMs.
Velocidade vs. Qualidade.
Modelos autoregressivos (como o GPT) são inteligentes, mas lentos - geram um token de cada vez, deixando a maior parte da sua GPU ociosa.
Modelos de difusão são rápidos, mas muitas vezes produzem saídas incoerentes.
O TiDAR oferece ambos em uma única passagem para a frente.
Aqui está a parte genial:
GPUs modernas podem processar muito mais tokens do que realmente usamos. O TiDAR explora esses "espaços livres" ao:
1. Redigir múltiplos tokens de uma vez usando difusão (a fase de "pensamento")
2. Verificá-los usando autoregressão (a fase de "conversa")
Ambos acontecem simultaneamente usando máscaras de atenção inteligentes - bidirecionais para a redação, causais para a verificação.
Os resultados:
↳ 4,71x mais rápido com 1,5B de parâmetros sem perda de qualidade
↳ Quase 6x mais rápido com 8B de parâmetros
↳ Primeira arquitetura a superar a decodificação especulativa (EAGLE-3)
↳ Funciona com cache KV padrão, ao contrário dos modelos de difusão puros
O truque de treinamento também é inteligente - em vez de mascarar tokens aleatoriamente, eles mascaram tudo. Isso fornece sinais de aprendizado mais fortes e permite uma redação eficiente em um único passo.
Se você está construindo agentes de IA em tempo real onde a latência prejudica a experiência, esta arquitetura merece atenção.
...

Top
Classificação
Favoritos

