O RL para raciocínio muitas vezes depende de verificadores — ótimo para matemática, mas complicado para escrita criativa ou pesquisa aberta. Conheça RARO: um novo paradigma que ensina LLMs a raciocinar por meio de jogos adversariais em vez de verificação. Sem verificadores. Sem ambientes. Só demonstrações. 🧵👇