热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
发布我的 grpo v2 仓库:nano-grpo-reasoning-gym
两个重大变化 (1) 这个完全实现了 grpo 训练堆栈,仅使用 pytorch/非常简单的 python 代码 - 但现在扩展到使用 vLLM、liger 内核和其他优化,使得训练模型的速度更快
(2) 它建立在 reasoning gym 仓库之上 - 完全是为了在这些推理环境中进行训练和评估而构建的
我真的很喜欢从零开始编写代码,以便更好地理解事物是如何运作的,而且我的许多研究兴趣涉及对训练过程进行一些奇怪的小改动,我发现用更简单的代码来实现这些更容易
我之前的仓库是出于同样的意图构建的 - 但为了保持最终的简单性,我实际上没有任何优化 - 所以虽然更改东西非常简单,但对于更严肃的训练运行来说,它非常慢且不切实际
像很多人一样,我对模型如何在多个环境中学习变得更加感兴趣 - reasoning gym 提供了一套标准化的任务来进行实验。这个仓库使得混合不同的推理任务、在某些任务上训练、在其他任务上评估变得容易
对我来说,这就是拥有一个快速但简单的沙盒来测试想法。对其他人来说,可能有助于理解 grpo/vllm/liger 在实践中的工作原理,或者作为自己实验的起点
这是第一次运行 - 在 leg_counting + family_relationships 上训练,在这些任务 + coin_flip 上评估
所有评估都是通过每个问题 5 次完成的概率 pass@1 来进行的,当然仍然有噪声。
腿部计数性能提高了 +20%,家庭关系提高了 +35%,硬币翻转 (+8%?也许只是噪声?)
Github 链接如下




热门
排行
收藏

