El RL para el razonamiento a menudo depende de verificadores — genial para matemáticas, pero complicado para la escritura creativa o la investigación abierta. Conoce RARO: un nuevo paradigma que enseña a los LLM a razonar a través de juegos adversariales en lugar de verificación. Sin verificadores. Sin entornos. Solo demostraciones. 🧵👇