Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi har nettopp implementert dette og fått en gratis 20 % hastighetsøkning på AI!
~
Treningsfri multi-token-prediksjon gjør LLM-er 15–26 % raskere
Forskere ved Qualcomm AI Research har lansert en banebrytende inferensteknikk som dramatisk øker hastigheten på LLM-er, uten noen omskolering, uten ekstra parametere og uten kvalitetstap.
Artikkelen «Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing» viser hvordan man kan forutsi flere fremtidige tokens parallelt ved dynamisk å undersøke modellens eget embeddingspace med smarte «masketokens».
Høydepunkter for hastighetsøkning
• 15–19 % høyere gjennomstrømning på LLaMA3.1-8B, Qwen3 og lignende modeller
• Opptil 26 % gjennomstrømningsgevinst med enkle optimaliseringer
• Eksempel: 38,9 → 40,5+ tokens/sekund på LLaMA3.1-8B
• Opptil 40 % færre modellpasninger fremover
Det er helt plug-and-play og fungerer på alle frosne autoregressive LLM-er, samtidig som det produserer identiske utganger som standard dekoding.
Slår andre treningsfrie baselines (Lookahead Decoding, Prompt Lookup) med 24 % i akseptprosent og gjennomstrømning
• Opptil 40 % færre modellpasninger fremover
• Tapsfrie identiske utganger som normal dekoding
• Ideelt når du ønsker raskere LLM-er i dag uten ekstra kostnader eller kompleksitet
Perfekt for lokal AI, edge-enheter, mobilapper, sanntidschat og for å kutte skyinferenskostnader.
Vi kjører det nå på alle modeller og har absolutt økt JouleWork-resultatene.
• PDF:

Topp
Rangering
Favoritter
