Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA acaba de publicar un documento que podría resolver la mayor compensación en los LLMs.
Velocidad vs. Calidad.
Los modelos autorregresivos (como GPT) son inteligentes pero lentos: generan un token a la vez, dejando la mayor parte de tu GPU inactiva.
Los modelos de difusión son rápidos pero a menudo producen salidas incoherentes.
TiDAR te ofrece ambos en una sola pasada hacia adelante.
Aquí está la parte genial:
Las GPUs modernas pueden procesar muchos más tokens de los que realmente usamos. TiDAR explota estos "espacios libres" al:
1. Redactar múltiples tokens a la vez usando difusión (la fase de "pensamiento")
2. Verificarlos usando autorregresión (la fase de "hablar")
Ambos suceden simultáneamente usando máscaras de atención inteligentes: bidireccional para redactar, causal para la verificación.
Los resultados:
↳ 4.71x más rápido con 1.5B de parámetros sin pérdida de calidad
↳ Casi 6x más rápido con 8B de parámetros
↳ Primera arquitectura en superar la decodificación especulativa (EAGLE-3)
↳ Funciona con almacenamiento en caché KV estándar, a diferencia de los modelos de difusión puros
El truco de entrenamiento también es ingenioso: en lugar de enmascarar tokens aleatoriamente, enmascaran todo. Esto proporciona señales de aprendizaje más fuertes y permite una redacción eficiente en un solo paso.
Si estás construyendo agentes de IA en tiempo real donde la latencia arruina la experiencia, esta arquitectura merece tu atención.
...

Parte superior
Clasificación
Favoritos

