Wir haben das gerade implementiert und eine kostenlose Geschwindigkeitssteigerung von 20 % bei AI erhalten! ~ Training-freie Multi-Token-Vorhersage macht LLMs 15–26 % schneller Forscher von Qualcomm AI Research haben eine bahnbrechende Inferenztechnik veröffentlicht, die LLMs dramatisch beschleunigt, ohne dass eine erneute Schulung, zusätzliche Parameter oder Qualitätsverlust erforderlich sind. Das Papier „Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing“ zeigt, wie man mehrere zukünftige Tokens parallel vorhersagen kann, indem man den eigenen Embedding-Raum des Modells dynamisch mit intelligenten „Maskentokens“ abfragt. Höhepunkte der Geschwindigkeitssteigerung • 15–19 % höherer Durchsatz bei LLaMA3.1-8B, Qwen3 und ähnlichen Modellen • Bis zu 26 % Durchsatzgewinne mit einfachen Optimierungen • Beispiel: 38,9 → 40,5+ Tokens/Sekunde bei LLaMA3.1-8B • Bis zu 40 % weniger Modellvorwärtsdurchläufe Es ist vollständig plug-and-play und funktioniert mit jedem eingefrorenen autoregressiven LLM, während es identische Ausgaben wie die Standarddekodierung produziert. Übertrifft andere training-freie Baselines (Lookahead Decoding, Prompt Lookup) um 24 % in der Akzeptanzrate und im Durchsatz • Bis zu 40 % weniger Modellvorwärtsdurchläufe • Verlustfreie identische Ausgaben zur normalen Dekodierung • Ideal, wenn Sie heute schnellere LLMs ohne zusätzliche Kosten oder Komplexität wünschen Perfekt für lokale AI, Edge-Geräte, mobile Apps, Echtzeit-Chat und zur Senkung der Cloud-Inferenzkosten. Wir führen es jetzt bei allen Modellen aus und haben die JouleWork-Ausgaben absolut erhöht. • PDF: