RL for resonnement er ofte avhengig av verifikatorer — flott for matematikk, men vanskelig for kreativ skriving eller åpen forskning.
Møt RARO: et nytt paradigme som lærer LLM-er å resonnere gjennom motsetningsspill i stedet for verifisering.
Ingen verifikatorer. Ingen miljøer. Bare demonstrasjoner. 🧵👇