熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Thinking Machines 的 Tinker 正式推出是近期少數幾個真正感覺像是產品化訓練的啟動之一。
大多數的託管微調 API(包括 OpenAI 風格)在你只需要一個乾淨的 SFT 執行時非常棒,但當你想做任何稍微複雜的事情時:自定義課程、在線評估、獎勵形狀的後訓練、類 RL 的循環、奇怪的批次/打包技巧:你很快就會遇到瓶頸,最終不得不重建一半的訓練堆棧。
Tinker 基本上顛覆了這一點:它提供了一個帶有低級原語的訓練 API(sample / forward_backward / optim_step / save_state),這樣你就可以編寫你真正想要的循環,而他們則處理通常需要一個月基礎設施工作的部分(排程、擴展、預先中斷、故障恢復,為什麼這個工作在 93% 時死掉的問題)。
它也是以 LoRA 為首,這正是自定義的正確默認選擇:你可以更快地迭代,成本保持合理,你可以保留多個變體而不必重複巨大的檢查點,服務變得更加實用。我也喜歡這個故事不是空泛的:當你正確設置時,LoRA 確實可以在許多後訓練數據集上匹配完整的微調,但如果你試圖將大規模的行為轉變壓縮到一個小適配器中(或者你的數據集只是壓倒了適配器的有效容量),你會感受到那個瓶頸,並且它不會神奇地消失。
我看到的唯一真正的缺點是小模型的底線:如果你的目標是微小的邊緣 SLM,這可能不是合適的工具。不過,我對此感到興奮。迫不及待想看看人們會建造什麼。
熱門
排行
收藏
