Du kan gjøre AI-inferens tre ganger raskere uten ekstra trening. Forskere fra SJTU og Huawei presenterer LoPA nettopp for det! Deres nye metode "Lookahead Parallel Decoding" er et plug-and-play-triks. Den forutsier smart den beste rekkefølgen for å generere flere tokens samtidig, i stedet for én etter én, og låser opp massiv parallell beregning. Den superlader D2F-Dream-modellen til å levere 10+ tokens per steg, og oppnår over 1070 tokens/sek—betydelig bedre enn andre topp inferenssystemer på kodings- (MBPP) og matematikkbenchmarks (GSM8K). LoPA: Skalering av dLLM-inferens via Lookahead Parallel Decoding Artikkel: Kode: Blogg: Vår rapport: 📬 #PapersAccepted av Jiqizhixin