NVIDIA acaba de publicar un documento que podría resolver la mayor compensación en los LLMs. Velocidad vs. Calidad. Los modelos autorregresivos (como GPT) son inteligentes pero lentos: generan un token a la vez, dejando la mayor parte de tu GPU inactiva. Los modelos de difusión son rápidos pero a menudo producen salidas incoherentes. TiDAR te ofrece ambos en una sola pasada hacia adelante. Aquí está la parte genial: Las GPUs modernas pueden procesar muchos más tokens de los que realmente usamos. TiDAR explota estos "espacios libres" al: 1. Redactar múltiples tokens a la vez usando difusión (la fase de "pensamiento") 2. Verificarlos usando autorregresión (la fase de "hablar") Ambos suceden simultáneamente usando máscaras de atención inteligentes: bidireccional para redactar, causal para la verificación. Los resultados: ↳ 4.71x más rápido con 1.5B de parámetros sin pérdida de calidad ↳ Casi 6x más rápido con 8B de parámetros ↳ Primera arquitectura en superar la decodificación especulativa (EAGLE-3) ↳ Funciona con almacenamiento en caché KV estándar, a diferencia de los modelos de difusión puros El truco de entrenamiento también es ingenioso: en lugar de enmascarar tokens aleatoriamente, enmascaran todo. Esto proporciona señales de aprendizaje más fuertes y permite una redacción eficiente en un solo paso. Si estás construyendo agentes de IA en tiempo real donde la latencia arruina la experiencia, esta arquitectura merece tu atención. ...