Sie könnten die KI-Inferenz 3x schneller machen, ohne zusätzliches Training. Forscher von SJTU & Huawei präsentieren LoPA genau dafür! Ihre neue Methode "Lookahead Parallel Decoding" ist ein Plug-and-Play-Trick. Sie sagt intelligent die beste Reihenfolge voraus, um mehrere Tokens gleichzeitig zu generieren, anstatt sie einzeln zu erzeugen, und ermöglicht massive parallele Berechnungen. Es verstärkt das D2F-Dream-Modell, um über 10 Tokens pro Schritt auszugeben, und erreicht über 1070 Tokens/Sekunde – was andere führende Inferenzsysteme bei den Benchmarks für Programmierung (MBPP) und Mathematik (GSM8K) erheblich übertrifft. LoPA: Skalierung der dLLM-Inferenz durch Lookahead Parallel Decoding Papier: Code: Blog: Unser Bericht: 📬 #PapersAccepted von Jiqizhixin