RL pro uvažování často spoléhá na ověřovače — skvělé pro matematiku, ale složité pro kreativní psaní nebo otevřený výzkum. Seznamte se s RARO: novým paradigmatem, které učí LLM uvažovat prostřednictvím adversariálních her místo ověřování. Žádní ověřovatelé. Žádná prostředí. Jen ukázky. 🧵👇