Právě jsme to implementovali a dostali jsme zdarma 20% zrychlení AI! ~ Tréninková predikce multi-tokenů činí LLM o 15–26 % rychlejšími Výzkumníci z Qualcomm AI Research představili průlomovou inferenční techniku, která výrazně urychluje LLM, bez přeškolování, bez dalších parametrů a bez ztráty kvality. Článek "Efficient Training-Free Multi-Token Prediction through Embedding-Space Probing" ukazuje, jak předpovídat více budoucích tokenů paralelně dynamickým zkoumáním vlastního embedding prostoru modelu pomocí chytrých "mask tokenů". Zrychlení • O 15–19 % vyšší propustnost u modelů LLaMA3.1-8B, Qwen3 a podobných • Až 26% zvýšení propustnosti při jednoduchých optimalizacích • Příklad: 38,9 → 40,5+ tokenů/sekundu na LLaMA3.1-8B • Až o 40 % méně modelových předních průchodů Je to zcela plug-and-play a funguje na jakémkoli zmrazeném autoregresivním LLM, přičemž produkuje identické výstupy jako standardní dekódování. Překonává ostatní základní hodnoty bez školení (Lookahead Decoding, Prompt Lookup) o 24 % v míře přijetí a propustnosti • Až o 40 % méně modelových předních průchodů • Bezztrátové identické výstupy s běžným dekódováním • Ideální, když dnes chcete rychlejší LLM bez dalších nákladů nebo složitosti Ideální pro lokální AI, edge zařízení, mobilní aplikace, chat v reálném čase a snižující náklady na inferenci v cloudu. Teď ho spouštíme na všech modelech a rozhodně jsme zvýšili výstupy JouleWork. • PDF: