Vi har nettopp implementert dette og fått en gratis 20 % hastighetsøkning på AI! ~ Treningsfri multi-token-prediksjon gjør LLM-er 15–26 % raskere Forskere ved Qualcomm AI Research har lansert en banebrytende inferensteknikk som dramatisk øker hastigheten på LLM-er, uten noen omskolering, uten ekstra parametere og uten kvalitetstap. Artikkelen «Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing» viser hvordan man kan forutsi flere fremtidige tokens parallelt ved dynamisk å undersøke modellens eget embeddingspace med smarte «masketokens». Høydepunkter for hastighetsøkning • 15–19 % høyere gjennomstrømning på LLaMA3.1-8B, Qwen3 og lignende modeller • Opptil 26 % gjennomstrømningsgevinst med enkle optimaliseringer • Eksempel: 38,9 → 40,5+ tokens/sekund på LLaMA3.1-8B • Opptil 40 % færre modellpasninger fremover Det er helt plug-and-play og fungerer på alle frosne autoregressive LLM-er, samtidig som det produserer identiske utganger som standard dekoding. Slår andre treningsfrie baselines (Lookahead Decoding, Prompt Lookup) med 24 % i akseptprosent og gjennomstrømning • Opptil 40 % færre modellpasninger fremover • Tapsfrie identiske utganger som normal dekoding • Ideelt når du ønsker raskere LLM-er i dag uten ekstra kostnader eller kompleksitet Perfekt for lokal AI, edge-enheter, mobilapper, sanntidschat og for å kutte skyinferenskostnader. Vi kjører det nå på alle modeller og har absolutt økt JouleWork-resultatene. • PDF: