我们在微调方面遇到了一个严重的问题。 今天,任何尝试进行SFT或RL的人都被迫走向两个极端: 1. "易于使用"的API,几乎无法控制训练过程。 2. 完全的基础设施地狱,您需要处理检查点、原始GPU、重试、闲置成本和无尽的管道。 中间几乎没有选择。 我与一些团队进行了交谈,他们不得不在这两种恶性选择中选择较小的一个。大多数人最终花费大量资金雇佣能够处理基础设施的人,因为他们别无选择。 这里有一个不同的替代方案: HPC-AI团队刚刚发布了一个微调SDK,让您可以完全控制训练代码,而无需处理基础设施地狱: • 您可以获得自定义的SFT配方 • RL或RLVR(可验证奖励的强化学习) • 您可以使用自己的奖励函数 • 您可以使用自己的训练循环 他们处理基础设施方面的所有事情: • 您从不接触Kubernetes配置 • 您从不接触集群调度程序 • 您从不接触GPU配置 • 您从不接触分布式检查点管道 这为更多团队打开了微调的大门。 您不再需要在"过于简单以至于无用"和"复杂到令人崩溃"之间做出选择。 这里的关键思想非常简单:这个模型将算法设计与基础设施工程解耦。 还有其他一点: 使用这个模型,您按令牌付费,而不是按小时租用GPU并处理闲置集群。
如果你想尝试这个,你可以使用团队与我分享的代码注册(嵌入在下面的链接中): 这个代码将为你提供10美元的免费代金券(大约150万代币),用于运行你的第一个训练任务。 这里是包含SDK的GitHub仓库: 感谢HPC-AI团队与我合作撰写这篇文章。
388