Ai putea face inferența AI de 3 ori mai rapidă fără antrenament suplimentar. Cercetătorii de la SJTU și Huawei prezintă LoPA tocmai pentru asta! Noua lor metodă "Lookahead Parallel Decoding" este un truc plug-and-play. Prezice inteligent cea mai bună ordine pentru a genera mai multe tokenuri simultan, în loc să deblocheze unul câte unul, deblocând calcule paralele masive. Acesta supraîncărcă modelul D2F-Dream pentru a produce 10+ token-uri pe pas, atingând peste 1070 tokens/sec—depășind semnificativ alte sisteme de inferență de top la benchmark-uri de codare (MBPP) și matematică (GSM8K). LoPA: Scalarea inferenței dLLM prin decodare paralelă prin lookahead Hârtie: Cod: Blog: Raportul nostru: 📬 #PapersAccepted de Jiqizhixin