Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wir haben das gerade implementiert und eine kostenlose Geschwindigkeitssteigerung von 20 % bei AI erhalten!
~
Training-freie Multi-Token-Vorhersage macht LLMs 15–26 % schneller
Forscher von Qualcomm AI Research haben eine bahnbrechende Inferenztechnik veröffentlicht, die LLMs dramatisch beschleunigt, ohne dass eine erneute Schulung, zusätzliche Parameter oder Qualitätsverlust erforderlich sind.
Das Papier „Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing“ zeigt, wie man mehrere zukünftige Tokens parallel vorhersagen kann, indem man den eigenen Embedding-Raum des Modells dynamisch mit intelligenten „Maskentokens“ abfragt.
Höhepunkte der Geschwindigkeitssteigerung
• 15–19 % höherer Durchsatz bei LLaMA3.1-8B, Qwen3 und ähnlichen Modellen
• Bis zu 26 % Durchsatzgewinne mit einfachen Optimierungen
• Beispiel: 38,9 → 40,5+ Tokens/Sekunde bei LLaMA3.1-8B
• Bis zu 40 % weniger Modellvorwärtsdurchläufe
Es ist vollständig plug-and-play und funktioniert mit jedem eingefrorenen autoregressiven LLM, während es identische Ausgaben wie die Standarddekodierung produziert.
Übertrifft andere training-freie Baselines (Lookahead Decoding, Prompt Lookup) um 24 % in der Akzeptanzrate und im Durchsatz
• Bis zu 40 % weniger Modellvorwärtsdurchläufe
• Verlustfreie identische Ausgaben zur normalen Dekodierung
• Ideal, wenn Sie heute schnellere LLMs ohne zusätzliche Kosten oder Komplexität wünschen
Perfekt für lokale AI, Edge-Geräte, mobile Apps, Echtzeit-Chat und zur Senkung der Cloud-Inferenzkosten.
Wir führen es jetzt bei allen Modellen aus und haben die JouleWork-Ausgaben absolut erhöht.
• PDF:

Top
Ranking
Favoriten
