Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM-inferens är en mångmiljarddollarsfråga.
Vår nya artikel introducerar en SOTA-algoritm i multi-draft spekulativ urval, Global Resolution, som gör betydande framsteg i detta problem.
Packning nedan 🧵👇
Ett tillvägagångssätt för effektiv inferensmetod kallas spekulativ urval.
Detta använder en billig 'draft'-modell för att göra 'gissningar' om vad den större, målinriktade modellen skulle ha ut.
Genom att utnyttja parallellismeffektiviteten hos moderna GPU:er kan detta minska antalet framåtriktade passningar i målmodellen med över 5 gånger.
Spekulativt urval kan generaliseras till att omfatta flera gissningar från flera utkastmodeller.
Men det är oklart vilken algoritm som är bäst för att kombinera dessa flera gissningar.
I fallet med ett steg har tidigare arbete visat att den optimala lösningen kan hittas genom att lösa ett optimalt transportlinjärt program, OTLP.
OTLP är dock extremt svår att lösa nästan exakt eftersom det växer exponentiellt i ordförrådsstorlek. Så hur kan vi lösa det?
Nyckeln är att utnyttja ytterligare struktur i konstruktionen av utkastträdet.
Tidigare arbete [Hu et al.] visade att när utkastträdet bildas genom i.i.d.-sampling, genom dualisering av OTLP, kan det optimala målvärdet beräknas i nästan linjär tid genom submodulär minimering.
Men fram till vårt arbete kunde ingen metod lösa lösningen som uppnådde detta optimala målvärde. Utan denna saknade pusselbit ger allt tidigare arbete oss blockeffektiviteten, den teoretiska maximala hastighetsökningen. Den berättar inte hur vi ska uppnå denna hastighetsökning.
Vårt arbete är det första som avsevärt minskar OTLP:s dimension, med hjälp av tre insikter.
Vi vänder dualiseringen av OTLP i tidigare arbete [Hu et al.] med komplementär slackness för att formulera OTLP som ett flödesgenomförbarhetsproblem.
Många av flödesolikhetsbegränsningarna är redundanta. Med hjälp av en girig algoritm från polymatroidteorin kan vi sammanställa dessa.
Detta reducerade flödesproblem har en lösning som kan parametriseras som softmax för en lågdimensionell vektor, och denna vektor kan beräknas via konvex minimering.
Detta reducerar OTLP i V^{n+1}-variabler till ett konvext minimeringsproblem i V-variabler.
V kan dock fortfarande vara ganska stor, så i vår artikel tillämpar vi ytterligare approximationer med begränsad felfrekvens i målmodellen för att ytterligare minska beräkningstiden.

För många fall där V är begränsat till top-k och n utkastmodeller, som visas ovan, är Global Resolution den _enda_ lösaren som kan lösa OTLP på rimlig tid.
Dessutom kan vi med hjälp av Global Resolution förbättra acceptansgraden på Llama och Gemma med upp till 6 %:
Kort sagt är Global Resolution SOTA för optimal verifiering av flera utkast vid spekulativ avkodning.

Det finns fortfarande mycket arbete kvar här, genom att slappna av i iid-miljön eller genom att utöka till flera steg.
5,82K
Topp
Rankning
Favoriter

