Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA právě vydala článek, který by mohl vyřešit největší kompromis v LLM.
Rychlost vs. kvalita.
Autoregresní modely (jako GPT) jsou chytré, ale pomalé – generují jeden token najednou, takže většina GPU zůstává nečinná.
Difúzní modely jsou rychlé, ale často produkují nekoherentní výstupy.
TiDAR vás oba dostane do jedné přihrávky vpřed.
Tady je ta geniální část:
Moderní GPU zvládnou zpracovat mnohem více tokenů, než kolik skutečně používáme. TiDAR tyto "volné sloty" využívá tím, že:
1. Sestavování více tokenů najednou pomocí difuze (fáze "myšlení")
2. Ověření pomocí autoregresní (fáze "mluvíní")
Obojí probíhá současně pomocí chytrých masek – obousměrné pro kreslení, kauzální pro ověření.
Výsledky:
↳ 4,71x rychlejší při parametrech 1,5B bez ztráty kvality
↳ Téměř 6x rychlejší při parametrech 8B
↳ První architektura, která překonala spekulativní dekódování (EAGLE-3)
↳ Funguje se standardním KV cacheováním, na rozdíl od čistě difuzních modelů
Trik s tréninkem je také chytrý – místo náhodného maskování žetonů maskují všechno. To poskytuje silnější vzdělávací signály a umožňuje efektivní jednokrokové kreslení.
Pokud stavíte AI agenty v reálném čase, kde latence zabíjí zážitek, stojí za to věnovat pozornost této architektuře.
...

Top
Hodnocení
Oblíbené

