热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们在微调方面遇到了一个严重的问题。
今天,任何尝试进行SFT或RL的人都被迫走向两个极端:
1. "易于使用"的API,几乎无法控制训练过程。
2. 完全的基础设施地狱,您需要处理检查点、原始GPU、重试、闲置成本和无尽的管道。
中间几乎没有选择。
我与一些团队进行了交谈,他们不得不在这两种恶性选择中选择较小的一个。大多数人最终花费大量资金雇佣能够处理基础设施的人,因为他们别无选择。
这里有一个不同的替代方案:
HPC-AI团队刚刚发布了一个微调SDK,让您可以完全控制训练代码,而无需处理基础设施地狱:
• 您可以获得自定义的SFT配方
• RL或RLVR(可验证奖励的强化学习)
• 您可以使用自己的奖励函数
• 您可以使用自己的训练循环
他们处理基础设施方面的所有事情:
• 您从不接触Kubernetes配置
• 您从不接触集群调度程序
• 您从不接触GPU配置
• 您从不接触分布式检查点管道
这为更多团队打开了微调的大门。
您不再需要在"过于简单以至于无用"和"复杂到令人崩溃"之间做出选择。
这里的关键思想非常简单:这个模型将算法设计与基础设施工程解耦。
还有其他一点:
使用这个模型,您按令牌付费,而不是按小时租用GPU并处理闲置集群。
如果你想尝试这个,你可以使用团队与我分享的代码注册(嵌入在下面的链接中):
这个代码将为你提供10美元的免费代金券(大约150万代币),用于运行你的第一个训练任务。
这里是包含SDK的GitHub仓库:
感谢HPC-AI团队与我合作撰写这篇文章。
388
热门
排行
收藏
