Podrías hacer la inferencia de IA 3 veces más rápida sin ningún entrenamiento adicional. ¡Investigadores de SJTU y Huawei presentan LoPA justo para eso! Su nuevo método "Decodificación Paralela con Anticipación" es un truco plug-and-play. Predice inteligentemente el mejor orden para generar múltiples tokens a la vez, en lugar de uno por uno, desbloqueando una enorme computación paralela. Potencia el modelo D2F-Dream para producir más de 10 tokens por paso, logrando más de 1070 tokens/seg—superando significativamente a otros sistemas de inferencia de primer nivel en los benchmarks de codificación (MBPP) y matemáticas (GSM8K). LoPA: Escalando la Inferencia dLLM a través de la Decodificación Paralela con Anticipación Artículo: Código: Blog: Nuestro informe: 📬 #PapersAccepted por Jiqizhixin