Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Právě jsme to implementovali a dostali jsme zdarma 20% zrychlení AI!
~
Tréninková predikce multi-tokenů činí LLM o 15–26 % rychlejšími
Výzkumníci z Qualcomm AI Research představili průlomovou inferenční techniku, která výrazně urychluje LLM, bez přeškolování, bez dalších parametrů a bez ztráty kvality.
Článek "Efficient Training-Free Multi-Token Prediction through Embedding-Space Probing" ukazuje, jak předpovídat více budoucích tokenů paralelně dynamickým zkoumáním vlastního embedding prostoru modelu pomocí chytrých "mask tokenů".
Zrychlení
• O 15–19 % vyšší propustnost u modelů LLaMA3.1-8B, Qwen3 a podobných
• Až 26% zvýšení propustnosti při jednoduchých optimalizacích
• Příklad: 38,9 → 40,5+ tokenů/sekundu na LLaMA3.1-8B
• Až o 40 % méně modelových předních průchodů
Je to zcela plug-and-play a funguje na jakémkoli zmrazeném autoregresivním LLM, přičemž produkuje identické výstupy jako standardní dekódování.
Překonává ostatní základní hodnoty bez školení (Lookahead Decoding, Prompt Lookup) o 24 % v míře přijetí a propustnosti
• Až o 40 % méně modelových předních průchodů
• Bezztrátové identické výstupy s běžným dekódováním
• Ideální, když dnes chcete rychlejší LLM bez dalších nákladů nebo složitosti
Ideální pro lokální AI, edge zařízení, mobilní aplikace, chat v reálném čase a snižující náklady na inferenci v cloudu.
Teď ho spouštíme na všech modelech a rozhodně jsme zvýšili výstupy JouleWork.
• PDF:

Top
Hodnocení
Oblíbené
