El RL para razonamiento suele depender de verificadores — genial para matemáticas, pero complicado para escritura creativa o investigación abierta. Conoce a RARO: un nuevo paradigma que enseña a los LLM a razonar mediante juegos adversariales en lugar de verificación. Sin verificadores. Sin entornos. Solo demostraciones. 🧵👇