RL для рассуждений часто полагается на проверяющих — отлично для математики, но сложно для креативного письма или открытых исследований. Познакомьтесь с RARO: новой парадигмой, которая учит LLM рассуждать через противостоящие игры вместо верификации. Без проверяющих. Без окружений. Только демонстрации. 🧵👇