Vous pourriez rendre l'inférence AI 3 fois plus rapide sans aucune formation supplémentaire. Des chercheurs de SJTU et Huawei présentent LoPA juste pour cela ! Leur nouvelle méthode "Lookahead Parallel Decoding" est un truc plug-and-play. Elle prédit intelligemment le meilleur ordre pour générer plusieurs tokens à la fois, au lieu un par un, débloquant ainsi un calcul parallèle massif. Elle supercharge le modèle D2F-Dream pour produire plus de 10 tokens par étape, atteignant plus de 1070 tokens/sec—dépassant significativement d'autres systèmes d'inférence de pointe sur les benchmarks de codage (MBPP) et de mathématiques (GSM8K). LoPA : Mise à l'échelle de l'inférence dLLM via le décodage parallèle anticipé Document : Code : Blog : Notre rapport : 📬 #PapersAccepted par Jiqizhixin