O RL para raciocínio muitas vezes depende de verificadores — ótimo para matemática, mas complicado para escrita criativa ou pesquisa aberta. Conheça o RARO: um novo paradigma que ensina LLMs a raciocinar através de jogos adversariais em vez de verificação. Sem verificadores. Sem ambientes. Apenas demonstrações. 🧵👇