Nous venons de l'implémenter et avons obtenu un gain de vitesse gratuit de 20 % sur l'IA ! ~ La prédiction multi-token sans entraînement rend les LLMs 15–26 % plus rapides Des chercheurs de Qualcomm AI Research ont publié une technique d'inférence révolutionnaire qui accélère considérablement les LLMs, sans réentraînement, sans paramètres supplémentaires et sans perte de qualité. L'article "Prédiction Multi-Token Efficace sans Entraînement via l'Exploration de l'Espace d'Embedding" montre comment prédire plusieurs tokens futurs en parallèle en sondant dynamiquement l'espace d'embedding du modèle avec des "tokens masques" intelligents. Points forts de l'accélération • 15–19 % de débit en plus sur LLaMA3.1-8B, Qwen3 et des modèles similaires • Jusqu'à 26 % de gains de débit avec des optimisations simples • Exemple : 38,9 → 40,5+ tokens/seconde sur LLaMA3.1-8B • Jusqu'à 40 % de passes avant du modèle en moins C'est complètement plug-and-play et fonctionne sur n'importe quel LLM autoregressif gelé tout en produisant des sorties identiques à celles du décodage standard. Dépasse d'autres références sans entraînement (Décodage Anticipé, Recherche de Prompt) de 24 % en taux d'acceptation et en débit • Jusqu'à 40 % de passes avant du modèle en moins • Sorties identiques sans perte par rapport au décodage normal • Idéal lorsque vous souhaitez des LLMs plus rapides aujourd'hui sans coût ou complexité supplémentaires Parfait pour l'IA locale, les appareils edge, les applications mobiles, le chat en temps réel et pour réduire les coûts d'inférence dans le cloud. Nous l'exécutons maintenant sur tous les modèles et avons absolument augmenté les sorties de JouleWork. • PDF: