這是巨大的。 訓練 LLMs 快 3 倍,且不會損失任何準確性。 Unsloth 剛剛推出了新的 Triton 核心 + 自動打包,徹底改變了微調遊戲。 這為什麼重要: 你現在可以在僅 3GB VRAM 上微調 Qwen3-4B。這是一個消費者級 GPU。你的 GPU。 新版本包括: ↳ 融合的 QK RoPE 核心,在長上下文中速度提升 2.3 倍 ↳ 默認啟用的智能無填充打包 ↳ 與 FlashAttention 3、xFormers 和 SDPA 兼容 ↳ VRAM 使用量減少 30-90% 這背後的數學是優雅的: 真實數據集具有不同的序列長度。將短序列填充到與長序列匹配會浪費計算資源。如果 80% 的序列是短的,打包可以通過完全消除這種浪費來實現 5 倍的速度提升。 本地微調的障礙不斷降低。 我們正在從「誰能負擔雲計算」轉變為「誰能在自己的 GPU 上最快迭代」。 要開始,我在下一條推文中分享了博客和入門筆記本的鏈接。