Możesz przyspieszyć wnioskowanie AI 3x bez dodatkowego szkolenia. Badacze z SJTU i Huawei przedstawiają LoPA właśnie w tym celu! Ich nowa metoda "Lookahead Parallel Decoding" to sztuczka typu plug-and-play. Sprytnie przewiduje najlepszą kolejność generowania wielu tokenów jednocześnie, zamiast jeden po drugim, odblokowując ogromne możliwości obliczeń równoległych. Superładowuje model D2F-Dream, aby uzyskać ponad 10 tokenów na krok, osiągając ponad 1070 tokenów/sek—znacząco przewyższając inne czołowe systemy wnioskowania w benchmarkach kodowania (MBPP) i matematyki (GSM8K). LoPA: Skalowanie wnioskowania dLLM za pomocą Lookahead Parallel Decoding Artykuł: Kod: Blog: Nasz raport: 📬 #PapersAccepted przez Jiqizhixin