同时使用 @PrimeIntellect 进行了两次 SFT 运行,配备了两块 GPU。 这个想法是固定步骤,同时改变示例数量,然后在保留的测试集上进行测试,以查看输入多样性如何帮助在简单环境中进行泛化。 验证者,我来了~