热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这太庞大了。
训练 LLMs 的速度提高 3 倍,且没有任何准确性损失。
Unsloth 刚刚发布了新的 Triton 内核 + 自动打包,彻底改变了微调游戏。
这为什么重要:
你现在可以在仅 3GB VRAM 上微调 Qwen3-4B。这是一个消费级 GPU。你的 GPU。
新版本包括:
↳ 融合的 QK RoPE 内核,在长上下文中速度提高 2.3 倍
↳ 默认启用的智能无填充打包
↳ 与 FlashAttention 3、xFormers 和 SDPA 兼容
↳ VRAM 使用量减少 30-90%
其背后的数学是优雅的:
真实数据集具有不同的序列长度。将短序列填充到与长序列匹配会浪费计算资源。如果 80% 的序列是短的,打包可以通过完全消除这种浪费来实现 5 倍的速度提升。
本地微调的门槛不断降低。
我们正在从“谁能负担得起云计算”转变为“谁能在自己的 GPU 上最快迭代”。
要开始,我在下一条推文中分享了博客和入门笔记本的链接。

热门
排行
收藏
