NVIDIA har nettopp sluppet en artikkel som kanskje kan løse den største avveiningen i LLM-er. Hastighet vs. kvalitet. Autoregressive modeller (som GPT) er smarte, men trege – de genererer én token om gangen, og etterlater mesteparten av GPU-en din ubrukt. Diffusjonsmodeller er raske, men produserer ofte usammenhengende utdata. TiDAR får dere begge i en enkelt fremoverpasning. Her kommer den geniale delen: Moderne GPU-er kan behandle langt flere tokens enn vi faktisk bruker. TiDAR utnytter disse "gratis spilleautomatene" ved å: 1. Utkast til flere tokens samtidig ved hjelp av diffusion ("tenkefasen") 2. Verifisering av dem ved hjelp av autoregression ("snakkefasen") Begge skjer samtidig ved bruk av smarte oppmerksomhetsmasker – toveis for utkast, kausale for verifisering. Resultatene: ↳ 4,71 ganger raskere med 1,5 B parametere uten kvalitetstap ↳ Nesten 6 ganger raskere ved 8B parametere ↳ Første arkitektur som overgikk spekulativ dekoding (EAGLE-3) ↳ Fungerer med standard KV-caching, i motsetning til rene diffusjonsmodeller Treningstrikset er også smart – i stedet for å maskere tokens tilfeldig, maskerer de alt. Dette gir sterkere læringssignaler og muliggjør effektiv enkeltstegs tegning. Hvis du bygger sanntids AI-agenter hvor latens ødelegger opplevelsen, er denne arkitekturen verdt å følge med på. ...