Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA heeft zojuist een paper uitgebracht dat mogelijk de grootste afweging in LLM's oplost.
Snelheid vs. Kwaliteit.
Autoregressieve modellen (zoals GPT) zijn slim maar traag - ze genereren één token tegelijk, waardoor het grootste deel van je GPU inactief blijft.
Diffusie modellen zijn snel maar produceren vaak onsamenhangende uitkomsten.
TiDAR biedt je beide in één enkele forward pass.
Hier is het geniale deel:
Moderne GPU's kunnen veel meer tokens verwerken dan we daadwerkelijk gebruiken. TiDAR maakt gebruik van deze "vrije slots" door:
1. Meerdere tokens tegelijk te ontwerpen met diffusie (de "denkfase")
2. Ze te verifiëren met autoregressie (de "praatfase")
Beide gebeuren tegelijkertijd met behulp van slimme aandachtmaskers - bidirectioneel voor het ontwerpen, causaal voor de verificatie.
De resultaten:
↳ 4,71x sneller bij 1,5B parameters zonder kwaliteitsverlies
↳ Bijna 6x sneller bij 8B parameters
↳ Eerste architectuur die speculatieve decodering (EAGLE-3) overtreft
↳ Werkt met standaard KV-caching, in tegenstelling tot pure diffusie modellen
De trainingstruc is ook slim - in plaats van tokens willekeurig te maskeren, maskeren ze alles. Dit geeft sterkere leersignalen en maakt efficiënte eenstapsontwerpen mogelijk.
Als je real-time AI-agenten bouwt waar latentie de ervaring verpest, is deze architectuur het waard om aandacht aan te besteden.
...

Boven
Positie
Favorieten

