Dette er enormt. Tren LLM-er 3× raskere uten tap av presisjon. Unsloth har nettopp sluppet nye Triton-kjerner + automatisk pakking som endrer finjusteringsspillet fullstendig. Her er grunnen til at dette er viktig: Du kan nå finjustere Qwen3-4B på bare 3 GB VRAM. Det er et forbruker-GPU. GPU-en din. Den nye utgivelsen inkluderer: ↳ Fused QK RoPE-kjerne som er 2,3 ganger raskere på lange kontekster ↳ Smart pakking uten polstring aktivert som standard ↳ Fungerer med FlashAttention 3, xFormers og SDPA ↳ 30-90 % mindre VRAM-bruk Matematikken bak dette er elegant: Reelle datasett har varierende sekvenslengder. Å fylle ut korte sekvenser for å matche lange sekvenser sløser med beregning. Hvis 80 % av sekvensene dine er korte, gir pakking deg 5x hastighet ved å eliminere det sløseriet helt. Barrieren for lokal finjustering fortsetter å synke. Vi går fra «hvem har råd til skybasert databehandling» til «hvem kan iterere raskest på sine egne GPU-er». For å komme i gang har jeg delt en lenke til bloggen og startnotatbøker i neste tweet.