Du skulle kunna göra AI-inferens tre gånger snabbare utan extra träning. Forskare från SJTU och Huawei presenterar LoPA just för det! Deras nya metod "Lookahead Parallel Decoding" är ett plug-and-play-trick. Den förutspår smart den bästa ordningen för att generera flera tokens samtidigt, istället för en och en, vilket låser upp massiv parallell beräkning. Den laddar D2F-Dream-modellen för att leverera 10+ tokens per steg, och uppnår över 1070 tokens/sekund – vilket överträffar andra toppinferenssystem på kodnings- (MBPP) och matematikbenchmarks (GSM8K). LoPA: Skalning av dLLM-inferens via Lookahead Parallel Decoding Papper: Kod: Blogg: Vår rapport: 📬 #PapersAccepted av Jiqizhixin