用于推理的强化学习通常依赖于验证者——这对数学很有效,但对创意写作或开放式研究来说却很棘手。 认识一下 RARO:一种新的范式,通过对抗游戏教会 LLMs 推理,而不是验证。 没有验证者。没有环境。只有演示。🧵👇