Thinking Machines 的 Tinker 正式发布是近期少数几次真正感觉像是产品化训练的发布之一。 大多数托管的微调 API(包括 OpenAI 风格)在你只需要一个干净的 SFT 运行时非常出色,但一旦你想做任何稍微复杂的事情:自定义课程、在线评估、奖励形状的后训练、类似 RL 的循环、奇怪的批处理/打包技巧:你很快就会遇到瓶颈,最终不得不重建一半的训练堆栈。 Tinker 基本上颠覆了这一点:它为你提供了一个带有低级原语的训练 API(sample / forward_backward / optim_step / save_state),这样你就可以编写你真正想要的循环,而他们则处理通常需要一个月基础设施工作的部分(调度、扩展、抢占、故障恢复,为什么这个任务在 93% 时死掉了)。 它也是以 LoRA 为首的,这正是定制的正确默认设置:你可以更快地迭代,成本保持合理,你可以保留多个变体而不必复制巨大的检查点,服务变得更加实用。我也喜欢这个故事并不是空洞的:当你正确设置时,LoRA 确实可以在许多后训练数据集上匹配完整的微调,但如果你试图将大规模的行为转变塞入一个小适配器(或者你的数据集只是远远超过适配器的有效容量),你会感受到这个瓶颈,它不会神奇地消失。 我看到的唯一真正的缺点是小模型的底线:如果你的目标是微小的边缘 SLM,这可能不是合适的工具。不过,我对此感到兴奋。迫不及待想看看人们会构建什么。