RL for resonnement er ofte avhengig av verifikatorer — flott for matematikk, men vanskelig for kreativ skriving eller åpen forskning. Møt RARO: et nytt paradigme som lærer LLM-er å resonnere gjennom motsetningsspill i stedet for verifisering. Ingen verifikatorer. Ingen miljøer. Bare demonstrasjoner. 🧵👇