熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們在微調方面遇到了一個嚴重的問題。
今天,任何嘗試進行 SFT 或 RL 的人都被迫進入兩個極端之一:
1. "易於使用" 的 API,幾乎無法控制訓練過程。
2. 完全的基礎設施地獄,您需要處理檢查點、原始 GPU、重試、閒置成本和無盡的管道。
中間幾乎沒有選擇。
我與幾個團隊交談過,他們不得不選擇這兩個惡行中的較小者。大多數人最終花了大量金錢在能夠處理基礎設施的人身上,因為他們別無選擇。
這裡有一個不同的替代方案:
HPC-AI 團隊剛剛發布了一個微調 SDK,讓您可以完全控制您的訓練代碼,而無需處理基礎設施地獄:
• 您可以獲得自定義的 SFT 食譜
• RL 或 RLVR(具有可驗證獎勵的強化學習)
• 您可以使用自己的獎勵函數
• 您可以使用自己的訓練循環
他們處理基礎設施方面的一切:
• 您從不接觸 Kubernetes 配置
• 您從不接觸集群調度器
• 您從不接觸 GPU 配置
• 您從不接觸分佈式檢查點管道
這為更多團隊打開了微調的大門。
您不再需要在 "過於簡單以至於無用" 和 "過於複雜以至於成為噩夢" 之間做出選擇。
這裡的關鍵思想非常簡單:這個模型將算法設計與基礎設施工程解耦。
還有其他的事情:
使用這個模型,您按每個標記付費,而不是按小時租用 GPU 並處理閒置集群。
如果你想嘗試這個,你可以使用團隊與我分享的代碼註冊(嵌入在下面的鏈接中):
這個代碼將給你 $10 的免費代金券(大約 1.5M 代幣)來運行你的第一個訓練任務。
這裡是包含 SDK 的 GitHub 倉庫:
感謝 HPC-AI 團隊與我合作撰寫這篇文章。
387
熱門
排行
收藏
