To je obrovské. Trénujte LLM o 3× rychleji bez ztráty přesnosti. Unsloth právě vydal nové Triton kernely + automatické balení, které úplně mění doladění hry. Zde je důvod, proč je to důležité: Nyní můžete Qwen3-4B doladit jen na 3GB VRAM. To je spotřebitelská GPU. Tvoje GPU. Nové vydání obsahuje: ↳ Fúzované QK RoPE jádro, které je 2,3x rychlejší na dlouhých kontextech ↳ Chytré balení bez polstrování je ve výchozím nastavení zapnuto ↳ Funguje s FlashAttention 3, xFormers a SDPA ↳ o 30-90 % nižší využití VRAM Matematika za tím je elegantní: Reálné datové sady mají různé délky sekvencí. Vyplňování krátkých sekvencí tak, aby odpovídaly těm dlouhým, plýtvá výpočty. Pokud je 80 % vašich sekvencí krátkých, balení vám dá 5x zrychlení tím, že úplně odstraní tento plýtvání. Bariéra pro místní doladění stále klesá. Přecházíme od "kdo si může dovolit cloudové výpočetní služby" k "kdo dokáže nejrychleji iterovat na svých vlastních GPU." Na začátek jsem v dalším tweetu sdílel odkaz na blog a startovní zápisníky.