A NVIDIA acaba de lançar um artigo que pode resolver o maior compromisso nos LLMs. Velocidade vs. Qualidade. Modelos autoregressivos (como o GPT) são inteligentes, mas lentos - geram um token de cada vez, deixando a maior parte da sua GPU ociosa. Modelos de difusão são rápidos, mas muitas vezes produzem saídas incoerentes. O TiDAR oferece ambos em uma única passagem para a frente. Aqui está a parte genial: GPUs modernas podem processar muito mais tokens do que realmente usamos. O TiDAR explora esses "espaços livres" ao: 1. Redigir múltiplos tokens de uma vez usando difusão (a fase de "pensamento") 2. Verificá-los usando autoregressão (a fase de "conversa") Ambos acontecem simultaneamente usando máscaras de atenção inteligentes - bidirecionais para a redação, causais para a verificação. Os resultados: ↳ 4,71x mais rápido com 1,5B de parâmetros sem perda de qualidade ↳ Quase 6x mais rápido com 8B de parâmetros ↳ Primeira arquitetura a superar a decodificação especulativa (EAGLE-3) ↳ Funciona com cache KV padrão, ao contrário dos modelos de difusão puros O truque de treinamento também é inteligente - em vez de mascarar tokens aleatoriamente, eles mascaram tudo. Isso fornece sinais de aprendizado mais fortes e permite uma redação eficiente em um único passo. Se você está construindo agentes de IA em tempo real onde a latência prejudica a experiência, esta arquitetura merece atenção. ...