Das ist riesig. Trainiere LLMs 3× schneller, ohne Genauigkeitsverlust. Unsloth hat gerade neue Triton-Kerne + automatisches Packing veröffentlicht, die das Fine-Tuning-Spiel komplett verändern. Hier ist, warum das wichtig ist: Du kannst jetzt Qwen3-4B mit nur 3GB VRAM feinabstimmen. Das ist eine Verbraucher-GPU. Deine GPU. Die neue Version enthält: ↳ Fused QK RoPE-Kern, der bei langen Kontexten 2,3x schneller ist ↳ Intelligentes, paddingfreies Packing, das standardmäßig aktiviert ist ↳ Funktioniert mit FlashAttention 3, xFormers und SDPA ↳ 30-90% weniger VRAM-Nutzung Die Mathematik dahinter ist elegant: Echte Datensätze haben unterschiedliche Sequenzlängen. Das Padding kurzer Sequenzen, um sie an langen auszurichten, verschwendet Rechenleistung. Wenn 80% deiner Sequenzen kurz sind, gibt dir Packing einen 5x Geschwindigkeitsvorteil, indem es diese Verschwendung vollständig eliminiert. Die Hürde für lokales Fine-Tuning sinkt weiter. Wir bewegen uns von "wer kann sich Cloud-Computing leisten" zu "wer kann am schnellsten auf seinen eigenen GPUs iterieren." Um loszulegen, habe ich einen Link zum Blog und zu den Starter-Notebooks im nächsten Tweet geteilt.