一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

这太庞大了。训练 LLMs 的速度提高 3 倍，且没有任何准确性损失。 Unsloth 刚刚发布了新的 Triton 内核 + 自动打包，彻底改变了微调游戏。这为什么重要：你现在可以在仅 3GB VRAM 上微调 Qwen3-4B。这是一个消费级 GPU。你的 GPU。新版本包括： ↳ 融合的 QK RoPE 内核，在长上下文中速度提高 2.3 倍 ↳ 默认启用的智能无填充打包 ↳ 与 FlashAttention 3、xFormers 和 SDPA 兼容 ↳ VRAM 使用量减少 30-90% 其背后的数学是优雅的：真实数据集具有不同的序列长度。将短序列填充到与长序列匹配会浪费计算资源。如果 80% 的序列是短的，打包可以通过完全消除这种浪费来实现 5 倍的速度提升。本地微调的门槛不断降低。我们正在从“谁能负担得起云计算”转变为“谁能在自己的 GPU 上最快迭代”。要开始，我在下一条推文中分享了博客和入门笔记本的链接。