NVIDIA právě vydala článek, který by mohl vyřešit největší kompromis v LLM. Rychlost vs. kvalita. Autoregresní modely (jako GPT) jsou chytré, ale pomalé – generují jeden token najednou, takže většina GPU zůstává nečinná. Difúzní modely jsou rychlé, ale často produkují nekoherentní výstupy. TiDAR vás oba dostane do jedné přihrávky vpřed. Tady je ta geniální část: Moderní GPU zvládnou zpracovat mnohem více tokenů, než kolik skutečně používáme. TiDAR tyto "volné sloty" využívá tím, že: 1. Sestavování více tokenů najednou pomocí difuze (fáze "myšlení") 2. Ověření pomocí autoregresní (fáze "mluvíní") Obojí probíhá současně pomocí chytrých masek – obousměrné pro kreslení, kauzální pro ověření. Výsledky: ↳ 4,71x rychlejší při parametrech 1,5B bez ztráty kvality ↳ Téměř 6x rychlejší při parametrech 8B ↳ První architektura, která překonala spekulativní dekódování (EAGLE-3) ↳ Funguje se standardním KV cacheováním, na rozdíl od čistě difuzních modelů Trik s tréninkem je také chytrý – místo náhodného maskování žetonů maskují všechno. To poskytuje silnější vzdělávací signály a umožňuje efektivní jednokrokové kreslení. Pokud stavíte AI agenty v reálném čase, kde latence zabíjí zážitek, stojí za to věnovat pozornost této architektuře. ...