发布我的 grpo v2 仓库:nano-grpo-reasoning-gym 两个重大变化 (1) 这个完全实现了 grpo 训练堆栈,仅使用 pytorch/非常简单的 python 代码 - 但现在扩展到使用 vLLM、liger 内核和其他优化,使得训练模型的速度更快 (2) 它建立在 reasoning gym 仓库之上 - 完全是为了在这些推理环境中进行训练和评估而构建的 我真的很喜欢从零开始编写代码,以便更好地理解事物是如何运作的,而且我的许多研究兴趣涉及对训练过程进行一些奇怪的小改动,我发现用更简单的代码来实现这些更容易 我之前的仓库是出于同样的意图构建的 - 但为了保持最终的简单性,我实际上没有任何优化 - 所以虽然更改东西非常简单,但对于更严肃的训练运行来说,它非常慢且不切实际 像很多人一样,我对模型如何在多个环境中学习变得更加感兴趣 - reasoning gym 提供了一套标准化的任务来进行实验。这个仓库使得混合不同的推理任务、在某些任务上训练、在其他任务上评估变得容易 对我来说,这就是拥有一个快速但简单的沙盒来测试想法。对其他人来说,可能有助于理解 grpo/vllm/liger 在实践中的工作原理,或者作为自己实验的起点 这是第一次运行 - 在 leg_counting + family_relationships 上训练,在这些任务 + coin_flip 上评估 所有评估都是通过每个问题 5 次完成的概率 pass@1 来进行的,当然仍然有噪声。 腿部计数性能提高了 +20%,家庭关系提高了 +35%,硬币翻转 (+8%?也许只是噪声?) Github 链接如下