Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dette er enormt.
Tren LLM-er 3× raskere uten tap av presisjon.
Unsloth har nettopp sluppet nye Triton-kjerner + automatisk pakking som endrer finjusteringsspillet fullstendig.
Her er grunnen til at dette er viktig:
Du kan nå finjustere Qwen3-4B på bare 3 GB VRAM. Det er et forbruker-GPU. GPU-en din.
Den nye utgivelsen inkluderer:
↳ Fused QK RoPE-kjerne som er 2,3 ganger raskere på lange kontekster
↳ Smart pakking uten polstring aktivert som standard
↳ Fungerer med FlashAttention 3, xFormers og SDPA
↳ 30-90 % mindre VRAM-bruk
Matematikken bak dette er elegant:
Reelle datasett har varierende sekvenslengder. Å fylle ut korte sekvenser for å matche lange sekvenser sløser med beregning. Hvis 80 % av sekvensene dine er korte, gir pakking deg 5x hastighet ved å eliminere det sløseriet helt.
Barrieren for lokal finjustering fortsetter å synke.
Vi går fra «hvem har råd til skybasert databehandling» til «hvem kan iterere raskest på sine egne GPU-er».
For å komme i gang har jeg delt en lenke til bloggen og startnotatbøker i neste tweet.

Topp
Rangering
Favoritter
