RL voor redeneren vertrouwt vaak op verifiers — geweldig voor wiskunde, maar lastig voor creatief schrijven of open onderzoek. Maak kennis met RARO: een nieuw paradigma dat LLM's leert redeneren via adversaire spellen in plaats van verificatie. Geen verifiers. Geen omgevingen. Gewoon demonstraties. 🧵👇