一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Thinking Machines 的 Tinker 正式发布是近期少数几次真正感觉像是产品化训练的发布之一。大多数托管的微调 API（包括 OpenAI 风格）在你只需要一个干净的 SFT 运行时非常出色，但一旦你想做任何稍微复杂的事情：自定义课程、在线评估、奖励形状的后训练、类似 RL 的循环、奇怪的批处理/打包技巧：你很快就会遇到瓶颈，最终不得不重建一半的训练堆栈。 Tinker 基本上颠覆了这一点：它为你提供了一个带有低级原语的训练 API（sample / forward_backward / optim_step / save_state），这样你就可以编写你真正想要的循环，而他们则处理通常需要一个月基础设施工作的部分（调度、扩展、抢占、故障恢复，为什么这个任务在 93% 时死掉了）。它也是以 LoRA 为首的，这正是定制的正确默认设置：你可以更快地迭代，成本保持合理，你可以保留多个变体而不必复制巨大的检查点，服务变得更加实用。我也喜欢这个故事并不是空洞的：当你正确设置时，LoRA 确实可以在许多后训练数据集上匹配完整的微调，但如果你试图将大规模的行为转变塞入一个小适配器（或者你的数据集只是远远超过适配器的有效容量），你会感受到这个瓶颈，它不会神奇地消失。我看到的唯一真正的缺点是小模型的底线：如果你的目标是微小的边缘 SLM，这可能不是合适的工具。不过，我对此感到兴奋。迫不及待想看看人们会构建什么。