我們在微調方面遇到了一個嚴重的問題。 今天,任何嘗試進行 SFT 或 RL 的人都被迫進入兩個極端之一: 1. "易於使用" 的 API,幾乎無法控制訓練過程。 2. 完全的基礎設施地獄,您需要處理檢查點、原始 GPU、重試、閒置成本和無盡的管道。 中間幾乎沒有選擇。 我與幾個團隊交談過,他們不得不選擇這兩個惡行中的較小者。大多數人最終花了大量金錢在能夠處理基礎設施的人身上,因為他們別無選擇。 這裡有一個不同的替代方案: HPC-AI 團隊剛剛發布了一個微調 SDK,讓您可以完全控制您的訓練代碼,而無需處理基礎設施地獄: • 您可以獲得自定義的 SFT 食譜 • RL 或 RLVR(具有可驗證獎勵的強化學習) • 您可以使用自己的獎勵函數 • 您可以使用自己的訓練循環 他們處理基礎設施方面的一切: • 您從不接觸 Kubernetes 配置 • 您從不接觸集群調度器 • 您從不接觸 GPU 配置 • 您從不接觸分佈式檢查點管道 這為更多團隊打開了微調的大門。 您不再需要在 "過於簡單以至於無用" 和 "過於複雜以至於成為噩夢" 之間做出選擇。 這裡的關鍵思想非常簡單:這個模型將算法設計與基礎設施工程解耦。 還有其他的事情: 使用這個模型,您按每個標記付費,而不是按小時租用 GPU 並處理閒置集群。
如果你想嘗試這個,你可以使用團隊與我分享的代碼註冊(嵌入在下面的鏈接中): 這個代碼將給你 $10 的免費代金券(大約 1.5M 代幣)來運行你的第一個訓練任務。 這裡是包含 SDK 的 GitHub 倉庫: 感謝 HPC-AI 團隊與我合作撰寫這篇文章。
387