基于强化学习的LLM训练的下一个前沿: > 泛化 强化学习环境可以帮助LLM在任何特定任务中变得熟练。 下一个突破是一个可以泛化到任何任务的强化学习方法。 一个通用验证器。 帕维尔: “主要问题是泛化,如何让某样东西不仅仅是最大化基准,而实际上能够带来真正的改进。这是一个非常困难的问题。我认为这一直是机器学习中的难题。”