一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Thinking Machines 的 Tinker 正式推出是近期少數幾個真正感覺像是產品化訓練的啟動之一。大多數的託管微調 API（包括 OpenAI 風格）在你只需要一個乾淨的 SFT 執行時非常棒，但當你想做任何稍微複雜的事情時：自定義課程、在線評估、獎勵形狀的後訓練、類 RL 的循環、奇怪的批次/打包技巧：你很快就會遇到瓶頸，最終不得不重建一半的訓練堆棧。 Tinker 基本上顛覆了這一點：它提供了一個帶有低級原語的訓練 API（sample / forward_backward / optim_step / save_state），這樣你就可以編寫你真正想要的循環，而他們則處理通常需要一個月基礎設施工作的部分（排程、擴展、預先中斷、故障恢復，為什麼這個工作在 93% 時死掉的問題）。它也是以 LoRA 為首，這正是自定義的正確默認選擇：你可以更快地迭代，成本保持合理，你可以保留多個變體而不必重複巨大的檢查點，服務變得更加實用。我也喜歡這個故事不是空泛的：當你正確設置時，LoRA 確實可以在許多後訓練數據集上匹配完整的微調，但如果你試圖將大規模的行為轉變壓縮到一個小適配器中（或者你的數據集只是壓倒了適配器的有效容量），你會感受到那個瓶頸，並且它不會神奇地消失。我看到的唯一真正的缺點是小模型的底線：如果你的目標是微小的邊緣 SLM，這可能不是合適的工具。不過，我對此感到興奮。迫不及待想看看人們會建造什麼。