Você poderia fazer a inferência da IA 3x mais rápida sem nenhum treinamento extra. Pesquisadores da SJTU e Huawei apresentam a LoPA justamente por isso! O novo método "Decodificação Paralela Antecipada" deles é um truque plug-and-play. Ele prevê de forma inteligente a melhor ordem para gerar múltiplos tokens ao mesmo tempo, em vez de um a um, desbloqueando uma computação paralela massiva. Ele supercarrega o modelo D2F-Dream para gerar 10+ tokens por passo, alcançando mais de 1070 tokens/seg — superando significativamente outros sistemas de inferência de ponta em benchmarks de codificação (MBPP) e matemática (GSM8K). LoPA: Inferência de Escalonamento de dLLM via Decodificação Paralela de Antecipação Papel: Código: Blog: Nosso relatório: 📬 #PapersAccepted por Jiqizhixin