NVIDIA hat gerade ein Papier veröffentlicht, das möglicherweise den größten Kompromiss bei LLMs lösen könnte. Geschwindigkeit vs. Qualität. Autoregressive Modelle (wie GPT) sind intelligent, aber langsam - sie generieren ein Token nach dem anderen, wodurch der Großteil deiner GPU untätig bleibt. Diffusionsmodelle sind schnell, produzieren aber oft inkohärente Ausgaben. TiDAR bietet beides in einem einzigen Vorwärtsdurchlauf. Hier ist der geniale Teil: Moderne GPUs können viel mehr Tokens verarbeiten, als wir tatsächlich nutzen. TiDAR nutzt diese "freien Slots" aus, indem es: 1. Mehrere Tokens gleichzeitig mit Diffusion entwirft (die "Denkphase") 2. Diese mit Autoregression überprüft (die "Sprechphase") Beides geschieht gleichzeitig mit intelligenten Aufmerksamkeitsmasken - bidirektional für das Entwerfen, kausal für die Verifizierung. Die Ergebnisse: ↳ 4,71x schneller bei 1,5B Parametern ohne Qualitätsverlust ↳ Fast 6x schneller bei 8B Parametern ↳ Erste Architektur, die spekulatives Decoding (EAGLE-3) übertrifft ↳ Funktioniert mit standardmäßigem KV-Caching, im Gegensatz zu reinen Diffusionsmodellen Der Trainingstrick ist ebenfalls clever - anstatt Tokens zufällig zu maskieren, maskieren sie alles. Dies gibt stärkere Lernsignale und ermöglicht effizientes Ein-Schritt-Entwerfen. Wenn du Echtzeit-AI-Agenten entwickelst, bei denen Latenz das Erlebnis beeinträchtigt, ist diese Architektur einen Blick wert. ...