Abbiamo appena implementato questo e ottenuto un aumento gratuito della velocità del 20% su AI! ~ La previsione multi-token senza addestramento rende i LLM più veloci del 15–26% I ricercatori di Qualcomm AI Research hanno rilasciato una tecnica di inferenza innovativa che accelera notevolmente i LLM, senza alcun riaddestramento, senza parametri extra e senza perdita di qualità. Il documento "Previsione Multi-Token Efficiente Senza Addestramento tramite Probing nello Spazio di Embedding" mostra come prevedere più token futuri in parallelo sondando dinamicamente lo spazio di embedding del modello con "token maschera" intelligenti. Punti salienti dell'aumento di velocità • 15–19% di throughput più elevato su LLaMA3.1-8B, Qwen3 e modelli simili • Fino al 26% di guadagni di throughput con semplici ottimizzazioni • Esempio: 38.9 → 40.5+ token/secondo su LLaMA3.1-8B • Fino al 40% in meno di passaggi in avanti del modello È completamente plug-and-play e funziona su qualsiasi LLM autoregressivo congelato producendo output identici a quelli della decodifica standard. Supera altri baseline senza addestramento (Lookahead Decoding, Prompt Lookup) del 24% in tasso di accettazione e throughput • Fino al 40% in meno di passaggi in avanti del modello • Output identici senza perdita rispetto alla decodifica normale • Ideale quando desideri LLM più veloci oggi senza costi o complessità aggiuntivi Perfetto per AI locale, dispositivi edge, app mobili, chat in tempo reale e per ridurre i costi di inferenza nel cloud. Lo stiamo eseguendo ora su tutti i modelli e abbiamo assolutamente aumentato gli output di JouleWork. • PDF: