Voisit tehdä tekoälypäättelyä 3 kertaa nopeammin ilman ylimääräistä koulutusta. SJTU:n ja Huawein tutkijat esittelevät LoPA:n juuri tätä varten! Heidän uusi "Lookahead Parallel Decoding" -menetelmänsä on plug-and-play-temppu. Se ennustaa älykkäästi parhaan järjestyksen useiden tokenien tuottamiseen yhtä aikaa yhden kerralla sen sijaan, että tuottaisiin yksi kerrallaan, mikä avaa massiivisen rinnakkaislaskennan. Se tehostaa D2F-Dream-mallia tuottamalla 10+ tokenia per askel, saavuttaen yli 1070 tokenia sekunnissa—mikä päihittää merkittävästi muut huippupäättelyjärjestelmät koodauksessa (MBPP) ja matematiikassa (GSM8K). LoPA: dLLM-päättelyn skaalaaminen Lookahead Parallel Decoding -menetelmällä Artikkeli: Koodi: Blogi: Raporttimme: 📬 #PapersAccepted kirjoittanut Jiqizhixin