A NVIDIA acabou de lançar um artigo que pode resolver o maior compromisso em LLMs. Velocidade vs. Qualidade. Modelos autorregressivos (como o GPT) são inteligentes, mas lentos – eles geram um token por vez, deixando a maior parte da sua GPU parada. Modelos de difusão são rápidos, mas frequentemente produzem saídas incoerentes. O TiDAR coloca vocês dois em um único passe para frente. Aqui está a parte genial: GPUs modernas conseguem processar muito mais tokens do que realmente usamos. O TiDAR explora esses "slots livres" por: 1. Elaborar múltiplos tokens ao mesmo tempo usando difusão (a fase de "pensar") 2. Verificá-los usando autoregressão (a fase de "falar") Ambos acontecem simultaneamente usando máscaras inteligentes de atenção – bidirecionais para desenho, causal para verificação. Os resultados: ↳ 4,71x mais rápido em parâmetros 1,5 bilhões, sem perda de qualidade ↳ Quase 6 vezes mais rápido em parâmetros 8B ↳ Primeira arquitetura a superar a decodificação especulativa (EAGLE-3) ↳ Funciona com cache KV padrão, ao contrário dos modelos de difusão pura O truque de treinamento também é inteligente – em vez de mascarar os tokens aleatoriamente, eles mascaram tudo. Isso proporciona sinais de aprendizado mais fortes e possibilita um desenho eficiente em etapas únicas. Se você está construindo agentes de IA em tempo real onde a latência acaba com a experiência, essa arquitetura merece atenção. ...