RL für das Schließen verlässt sich oft auf Verifier – großartig für Mathematik, aber knifflig für kreatives Schreiben oder offene Forschung. Lernen Sie RARO kennen: ein neues Paradigma, das LLMs beibringt, durch adversariale Spiele zu schließen, anstatt durch Verifikation. Keine Verifier. Keine Umgebungen. Nur Demonstrationen. 🧵👇