Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vous pourriez rendre l'inférence AI 3 fois plus rapide sans aucune formation supplémentaire.
Des chercheurs de SJTU et Huawei présentent LoPA juste pour cela !
Leur nouvelle méthode "Lookahead Parallel Decoding" est un truc plug-and-play. Elle prédit intelligemment le meilleur ordre pour générer plusieurs tokens à la fois, au lieu un par un, débloquant ainsi un calcul parallèle massif.
Elle supercharge le modèle D2F-Dream pour produire plus de 10 tokens par étape, atteignant plus de 1070 tokens/sec—dépassant significativement d'autres systèmes d'inférence de pointe sur les benchmarks de codage (MBPP) et de mathématiques (GSM8K).
LoPA : Mise à l'échelle de l'inférence dLLM via le décodage parallèle anticipé
Document :
Code :
Blog :
Notre rapport :
📬 #PapersAccepted par Jiqizhixin

Meilleurs
Classement
Favoris
