这太庞大了。 训练 LLMs 的速度提高 3 倍,且没有任何准确性损失。 Unsloth 刚刚发布了新的 Triton 内核 + 自动打包,彻底改变了微调游戏。 这为什么重要: 你现在可以在仅 3GB VRAM 上微调 Qwen3-4B。这是一个消费级 GPU。你的 GPU。 新版本包括: ↳ 融合的 QK RoPE 内核,在长上下文中速度提高 2.3 倍 ↳ 默认启用的智能无填充打包 ↳ 与 FlashAttention 3、xFormers 和 SDPA 兼容 ↳ VRAM 使用量减少 30-90% 其背后的数学是优雅的: 真实数据集具有不同的序列长度。将短序列填充到与长序列匹配会浪费计算资源。如果 80% 的序列是短的,打包可以通过完全消除这种浪费来实现 5 倍的速度提升。 本地微调的门槛不断降低。 我们正在从“谁能负担得起云计算”转变为“谁能在自己的 GPU 上最快迭代”。 要开始,我在下一条推文中分享了博客和入门笔记本的链接。