Toteutimme juuri tämän ja saimme ilmaisen 20 % nopeutuksen tekoälyyn! ~ Koulutukseton monitoken-ennuste tekee LLM:istä 15–26 % nopeampia Qualcomm AI Researchin tutkijat ovat julkaisseet läpimurtopäättelytekniikan, joka nopeuttaa merkittävästi LLM:ää ilman uudelleenkoulutusta, ilman ylimääräisiä parametreja eikä lainkaan laadun heikkenemistä. Artikkeli "Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing" osoittaa, miten ennustaa useita tulevia tokeneita rinnakkain tutkimalla dynaamisesti mallin omaa upotustilaa älykkäillä "mask-tokeneilla". Nopeuden kohokohdat • 15–19 % suurempi läpäisykyky LLaMA3.1-8B-, Qwen3- ja vastaavilla malleilla • Jopa 26 % läpimenon kasvu yksinkertaisilla optimoinneilla • Esimerkki: 38,9 → 40,5+ tokenia/sekunti LLaMA3.1-8B:ssä • Jopa 40 % vähemmän mallin eteenpäin suuntautuvia syöttöjä Se on täysin plug-and-play ja toimii millä tahansa jäätyneellä autoregressiivisella LLM:llä samalla kun tuottaa identtiset ulostulot kuin tavallinen dekoodaus. Voittaa muut koulutusvapaat lähtötasot (Lookahead Dekoodaus, Prompt Lookup) hyväksymisprosentissa ja läpimenossa 24 % • Jopa 40 % vähemmän mallin eteenpäin suuntautuvia syöttöjä • Häviöttömät identtiset ulostulot normaalin dekoodauksen kanssa • Ihanteellinen, kun haluat nopeampia LLM-levyjä tänään ilman lisäkustannuksia tai monimutkaisuutta Täydellinen paikalliselle tekoälylle, reunalaitteille, mobiilisovelluksille, reaaliaikaiselle chatille ja pilvipäättelykustannusten leikkaamiselle. Meillä on nyt käytössä kaikilla malleilla ja JouleWorkin tulokset ovat selvästi kasvaneet. • PDF: