Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA har nettopp sluppet en artikkel som kanskje kan løse den største avveiningen i LLM-er.
Hastighet vs. kvalitet.
Autoregressive modeller (som GPT) er smarte, men trege – de genererer én token om gangen, og etterlater mesteparten av GPU-en din ubrukt.
Diffusjonsmodeller er raske, men produserer ofte usammenhengende utdata.
TiDAR får dere begge i en enkelt fremoverpasning.
Her kommer den geniale delen:
Moderne GPU-er kan behandle langt flere tokens enn vi faktisk bruker. TiDAR utnytter disse "gratis spilleautomatene" ved å:
1. Utkast til flere tokens samtidig ved hjelp av diffusion ("tenkefasen")
2. Verifisering av dem ved hjelp av autoregression ("snakkefasen")
Begge skjer samtidig ved bruk av smarte oppmerksomhetsmasker – toveis for utkast, kausale for verifisering.
Resultatene:
↳ 4,71 ganger raskere med 1,5 B parametere uten kvalitetstap
↳ Nesten 6 ganger raskere ved 8B parametere
↳ Første arkitektur som overgikk spekulativ dekoding (EAGLE-3)
↳ Fungerer med standard KV-caching, i motsetning til rene diffusjonsmodeller
Treningstrikset er også smart – i stedet for å maskere tokens tilfeldig, maskerer de alt. Dette gir sterkere læringssignaler og muliggjør effektiv enkeltstegs tegning.
Hvis du bygger sanntids AI-agenter hvor latens ødelegger opplevelsen, er denne arkitekturen verdt å følge med på.
...

Topp
Rangering
Favoritter

