Podrías hacer que la inferencia de la IA sea 3 veces más rápida sin ningún entrenamiento extra. ¡Investigadores de SJTU y Huawei presentan LoPA precisamente por eso! Su nuevo método de "Decodificación Paralela de Anticipación" es un truco plug-and-play. Predice inteligentemente el mejor orden para generar varios tokens a la vez, en lugar de uno a uno, desbloqueando así una computación paralela masiva. Supercarga el modelo D2F-Dream para generar 10+ tokens por paso, logrando más de 1070 tokens/seg, superando significativamente a otros sistemas de inferencia de alto nivel en benchmarks de codificación (MBPP) y matemáticas (GSM8K). LoPA: Escalabilidad de inferencia en dLLM mediante decodificación paralela anticipada Papel: Código: Blog: Nuestro informe: 📬 #PapersAccepted por Jiqizhixin