Questo è enorme. Allena i LLM 3× più velocemente senza alcuna perdita di precisione. Unsloth ha appena rilasciato nuovi kernel Triton + auto packing che cambiano completamente il gioco del fine-tuning. Ecco perché questo è importante: Ora puoi fare il fine-tuning di Qwen3-4B con solo 3GB di VRAM. Questa è una GPU da consumo. La tua GPU. Il nuovo rilascio include: ↳ Kernel QK RoPE fuso che è 2.3x più veloce su contesti lunghi ↳ Packing intelligente senza padding abilitato per impostazione predefinita ↳ Funziona con FlashAttention 3, xFormers e SDPA ↳ Utilizzo di VRAM ridotto del 30-90% La matematica dietro questo è elegante: I dataset reali hanno lunghezze di sequenza variabili. Il padding delle sequenze brevi per farle corrispondere a quelle lunghe spreca risorse. Se l'80% delle tue sequenze è breve, il packing ti offre un aumento di velocità di 5x eliminando completamente quel spreco. La barriera per il fine-tuning locale continua a scendere. Stiamo passando da "chi può permettersi il cloud computing" a "chi può iterare più velocemente sulle proprie GPU." Per iniziare, ho condiviso un link al blog e ai notebook di avvio nel tweet successivo.