Thinking Machines 的 Tinker 正式推出是近期少數幾個真正感覺像是產品化訓練的啟動之一。 大多數的託管微調 API(包括 OpenAI 風格)在你只需要一個乾淨的 SFT 執行時非常棒,但當你想做任何稍微複雜的事情時:自定義課程、在線評估、獎勵形狀的後訓練、類 RL 的循環、奇怪的批次/打包技巧:你很快就會遇到瓶頸,最終不得不重建一半的訓練堆棧。 Tinker 基本上顛覆了這一點:它提供了一個帶有低級原語的訓練 API(sample / forward_backward / optim_step / save_state),這樣你就可以編寫你真正想要的循環,而他們則處理通常需要一個月基礎設施工作的部分(排程、擴展、預先中斷、故障恢復,為什麼這個工作在 93% 時死掉的問題)。 它也是以 LoRA 為首,這正是自定義的正確默認選擇:你可以更快地迭代,成本保持合理,你可以保留多個變體而不必重複巨大的檢查點,服務變得更加實用。我也喜歡這個故事不是空泛的:當你正確設置時,LoRA 確實可以在許多後訓練數據集上匹配完整的微調,但如果你試圖將大規模的行為轉變壓縮到一個小適配器中(或者你的數據集只是壓倒了適配器的有效容量),你會感受到那個瓶頸,並且它不會神奇地消失。 我看到的唯一真正的缺點是小模型的底線:如果你的目標是微小的邊緣 SLM,這可能不是合適的工具。不過,我對此感到興奮。迫不及待想看看人們會建造什麼。