Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA acaba de publicar un artículo que podría resolver el mayor compromiso en los LLM.
Velocidad vs. Calidad.
Los modelos autorregresivos (como GPT) son inteligentes pero lentos: generan un token a la vez, dejando la mayor parte de tu GPU inactiva.
Los modelos de difusión son rápidos pero a menudo producen salidas incoherentes.
TiDAR os da a ambos un solo pase hacia adelante.
Aquí viene la parte genial:
Las GPUs modernas pueden procesar muchos más tokens de los que realmente usamos. TiDAR aprovecha estas "ranuras libres" mediante:
1. Elaborar varios tokens a la vez usando difusión (la fase de "pensar")
2. Verificarlos mediante autoregresión (la fase de "hablar")
Ambos ocurren simultáneamente usando máscaras inteligentes de atención: bidireccionales para el dibujo, causales para la verificación.
Los resultados:
↳ 4,71 veces más rápido a parámetros de 1,5 mil millones y pérdida de calidad nula
↳ Casi 6 veces más rápido con parámetros de 8B
↳ Primera arquitectura en superar la decodificación especulativa (EAGLE-3)
↳ Funciona con caché KV estándar, a diferencia de los modelos de difusión pura
El truco de entrenamiento también es ingenioso: en vez de enmascarar fichas al azar, lo enmascaran todo. Esto proporciona señales de aprendizaje más fuertes y permite un dibujo técnico eficiente en un solo paso.
Si estás construyendo agentes de IA en tiempo real donde la latencia arruina la experiencia, esta arquitectura merece la pena prestar atención.
...

Populares
Ranking
Favoritas

