Você pode tornar a inferência de IA 3x mais rápida sem qualquer treinamento extra. Pesquisadores da SJTU e da Huawei apresentam o LoPA exatamente para isso! O novo método "Decodificação Paralela com Antecipação" é um truque plug-and-play. Ele prevê de forma inteligente a melhor ordem para gerar múltiplos tokens de uma vez, em vez de um por um, desbloqueando uma enorme computação paralela. Ele potencializa o modelo D2F-Dream para produzir mais de 10 tokens por passo, alcançando mais de 1070 tokens/seg—superando significativamente outros sistemas de inferência de ponta em benchmarks de codificação (MBPP) e matemática (GSM8K). LoPA: Escalando a Inferência dLLM via Decodificação Paralela com Antecipação Artigo: Código: Blog: Nosso relatório: 📬 #PapersAccepted por Jiqizhixin