Potresti rendere l'inferenza AI 3 volte più veloce senza alcun addestramento extra. I ricercatori della SJTU e di Huawei presentano LoPA proprio per questo! Il loro nuovo metodo "Lookahead Parallel Decoding" è un trucco plug-and-play. Prevede in modo intelligente il miglior ordine per generare più token contemporaneamente, invece di uno alla volta, sbloccando una massiccia computazione parallela. Potenzia il modello D2F-Dream per produrre oltre 10 token per passo, raggiungendo oltre 1070 token/sec—superando significativamente altri sistemi di inferenza di punta nei benchmark di coding (MBPP) e matematica (GSM8K). LoPA: Scalare l'inferenza dLLM tramite Lookahead Parallel Decoding Carta: Codice: Blog: Il nostro rapporto: 📬 #PapersAccepted da Jiqizhixin