这很酷。我预测到2026年5月,任何人都将能够通过一些组合的prime-rl/verifiers、tinker、skyRL、slime等来训练一个像这样的自定义模型,适用于几乎任何任务。 护城河将是知道什么任务需要强化学习以及数据/环境的魔法。