Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA vient de publier un document qui pourrait résoudre le plus grand compromis dans les LLMs.
Vitesse vs. Qualité.
Les modèles autoregressifs (comme GPT) sont intelligents mais lents - ils génèrent un token à la fois, laissant la plupart de votre GPU inactif.
Les modèles de diffusion sont rapides mais produisent souvent des sorties incohérentes.
TiDAR vous offre les deux en un seul passage en avant.
Voici la partie géniale :
Les GPU modernes peuvent traiter beaucoup plus de tokens que nous n'en utilisons réellement. TiDAR exploite ces "emplacements libres" en :
1. Rédigeant plusieurs tokens à la fois en utilisant la diffusion (la phase de "réflexion")
2. Les vérifiant en utilisant l'autoregression (la phase de "conversation")
Les deux se produisent simultanément en utilisant des masques d'attention intelligents - bidirectionnels pour la rédaction, causals pour la vérification.
Les résultats :
↳ 4,71x plus rapide à 1,5B de paramètres sans perte de qualité
↳ Près de 6x plus rapide à 8B de paramètres
↳ Première architecture à surpasser le décodage spéculatif (EAGLE-3)
↳ Fonctionne avec le caching KV standard, contrairement aux modèles de diffusion purs
Le truc d'entraînement est astucieux aussi - au lieu de masquer aléatoirement des tokens, ils masquent tout. Cela donne des signaux d'apprentissage plus forts et permet une rédaction efficace en une seule étape.
Si vous construisez des agents IA en temps réel où la latence nuit à l'expérience, cette architecture mérite votre attention.
...

Meilleurs
Classement
Favoris

